大数据几大主流技术—-HDFS操作原理

大数据：短时间快速产生大量多种多样有价值的信息。

当前谷歌三大论文：

GFS ——————–>HDDS分布式文件系统（分布式的存储）
MapReduce————>分布式的处理
BigData——————>HBase (一种数据库）

解决数据量过大的问题：

1.垂直扩展

2.横向扩展（简单廉价的服务器或者pc端就可以）

Hadoop

Hadoop是由Apache基金会所开发的分布式系统基础架构，是一个能够对大量数据进行分布式处理的软件框架，具有高可靠性，高扩展性，高效性，高容错性，低成本的特点。

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS（对于本文）的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

YARN

Aache Hadoop YARN是一种新的Hadoop资源管理器，它是一个通用资源管理系统，课为上层应用提供统一的资源管理和调度，它的引入为集群再利用率，资源统一管理和数据共享等方面带来了巨大好处

Hive

hive是基于Hahoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为Mapreduce任务进行运行

HDFS

Hadoop分布式文件系统简称HDFS是运行在通用硬件上的分布式文件系统。是Apache Hadoop Core项目的一部门，它的主要目的是支持以流的形式访问写入的大型文件。它具有高容错性，可以部署在低廉的硬件上，并且提供高吞吐来访问应用程序的数据，适合超大数据集的应用程序。HDFS主从架构主要是有NameNode（主节点），DataNode(从节点)，Client

NameNode（主节点）

NameNode是一个通常在HDFS实例中的单独机器上运行的软件，它负责管理文件系统名称空间和控制外部客户机的访问。

1.掌控并管理所有节点，管理元数据（描述数据）

2.接受client的请求

3.与DataNode进行通信

DataNode（从节点）

DataNode也是一个通常在HDF实例中的单独机器上运行的软件，通常以机架的形式组织，机架通过一个交换机将所有系统链接起来。

1.存储数据

2.想NameNode反应

3.响应client的操作

SPARK（计算引擎）

Apache Spark是专门大规模数据处理而设计的快熟通用的计算引擎，Spark是所开源的类Hadoop MapReduce的通用并行框架，是基于MapReduce算法实现的分布式计算。

Spark是一个通用引擎，可用它来完成各种各样的运算，包括SQL查询，文本处理，机器学习，而在Spark出现之前，需要借助各种引擎来分别处理这些需求。

Spark 提供了大量的库，包括Spark Core、Spark SQL（可以使用SQL处理）、Spark Streaming（流式处理）、MLlib（机器学习库）、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。

文件的操作注意事项

以block块的形式将大文件进行相应的存储（1.x 是64M 2.x/3.x 是128M 切割）

文件线性切割成快（block）：偏移量offset （标记切割的位置 byte）

Block分散存储在集群节点中（存在DataNode中）

单一文件Block大小一致，文件与文件可以不一致

Block可以设置副本数，副本分散在不同节点中（副本数默认为三个）

副本数不要超过节点数量

文件上传可以设置Block大小和副本数（Block大小一经设置，不许改变）

只支持一次写入多次读取，同一时刻只有一个写入者（NameNode只许进行一个一个进行）

存储文件操作

1.client将文件进行切割 ,先将计算文件大小/128M=block块数

2.向NameNode汇报

1）、块数

2）、文件大小

3）、文件权限

4）、文件的属主

5）、文件上传时间

3.client按照块的大小切割（默认128M）

4.client会向NameNode去申请资源

5.NameNode会返回一批负载不高的DataNode给client

6.client向DataNode里面发送block并且做好备份

7.DataNode存放block块之后会向NameNode汇报情况

读取文件的操作

1.NameNodei向client发送一个请求，client接受请求之后，向NameNode申请节点信息（blockid)

2.NameNode会向client发送一些节点信息

3.client获取节点信息之后DataNode拿取数据（就近原则）

备份机制

1. 集群内提交在提交的节点上放置block(主节点所在服务器的从节点)

集群外提交选择一个负载不高的节点进行存放

2.放置与第一个备份不同机架的任意节点上

3.放置在第二个机架不同的节点上

当存储文件的时候会用到———-pipeline管道

1.NameNode在返回给client一些DataNode的信息

2.client会和这些DataNode形成一个管道，并且将block切割成一个个ackpackage（64k)

3.DataNode会从管道中拿取相应的数据进行存储

4.当存储完成之后，DataNode会向NameNode经行汇报

原文链接：https://blog.csdn.net/sksea99/article/details/91374207

原创文章，作者：优速盾-小U，如若转载，请注明出处：https://www.cdnb.net/bbs/archives/7041