hadoop 漫画流程 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1284358 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

hadoop 漫画流程

博客分类：

hadoop2

阅读更多

http://www.cstor.cn/textdetail_10211.html

根据Maneesh Varshney的漫画改编，以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。

　　一、角色出演

　　

　　如上图所示，HDFS存储相关角色与功能如下：

　　Client：客户端，系统使用者，调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

　　Namenode：元数据节点，是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

　　Datanode：数据存储节点，负责数据块的存储与冗余备份;执行数据块的读写操作等。

　　二、写入数据

　　1、发送写数据请求

　　

发送写数据请求

　　HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是，在HDFS中，如果一个文件大小小于一个数据块的大小，它是不需要占用整个数据块的存储空间的。

　　2、文件切分

　　

文件切割

　　3、DN分配

　　

DN分配1

　　

DN分配2

　　4、数据写入

　　

数据写入1

　　

数据写入2

　　5、完成写入

　　

完成写入1

　　

完成写入2

　　

完成写入3

　　6、角色定位

　　

角色定位

　　三、HDFS读文件

　　1、用户需求

　　

用户需求

　　HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。

　　2、先联系元数据节点

　　

联系元数据节点1

　　

联系元数据节点2

　　

联系元数据节点2

　　3、下载数据

　　

下载数据

　　前文提到在写数据过程中，数据存储已经按照客户端与DataNode节点之间的距离进行了排序，距客户端越近的DataNode节点被放在最前面，客户端会优先从本地读取该数据块。

　　4、思考

　　

　　四、HDFS容错机制——第一部分：故障类型及监测方法

　　1、三类故障

　　(1)第一类：节点失败

　　

节点失败

　　(2)第二类：网络故障

　　

网络故障

　　(3)第三类：数据损坏(脏数据)

　　

数据损坏

　　2、故障监测机制

　　(1)节点失败监测机制

　　

节点失败检测机制1

　　

节点失败检测机制2

　　

节点失败检测机制3

　　(2)通信故障监测机制

　　

通信故障检测机制

　　(3)数据错误监测机制

　　

数据错误检测机制1

　　

数据错误检测机制2

　　

数据错误检测机制3

　　3、回顾：心跳信息与数据块报告

　　

回顾：心跳信息与数据块报告

　　HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本)，从上可以看出，HDFS认为机器故障是种常态，所以在设计时充分考虑到单个机器故障，单个磁盘故障，单个文件丢失等情况。

　　五、容错第二部分：读写容错

　　1、写容错

　　

写容错1

　　

写容错2

　　

写容错3

　　

写容错4

　　2、读容错

　　

读容错

　　

读容错2

　　六、容错第三部分：数据节点(DN)失效

　　

数据节点(DN)失效1

　　

数据节点(DN)失效2

　　

数据节点(DN)失效3

　　

数据节点(DN)失效4

　　

数据节点(DN)失效5

　　

数据节点(DN)失效6

　　七、备份规则

　　

备份规则

　　1、机架与数据节点

　　

1、机架与数据节点

　　2、副本放置策略

　　

2、副本放置策略

　　数据块的第一个副本优先放在写入数据块的客户端所在的节点上，但是如果这个客户端上的数据节点空间不足或者是当前负载过重，则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。

　　如果客户端上没有一个数据节点的话，则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

　　

数字节点放置

　　HDFS的存放策略是将一个副本存放在本地机架节点上，另外两个副本放在不同机架的不同节点上。

　　这样集群可在完全失去某一机架的情况下还能存活。同时，这种策略减少了机架间的数据传输，提高了写操作的效率，因为数据块只存放在两个不同的机架上，减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

　　

DN节点选取

　　

　　via:京东大数据

　　来源：36大数据

分享到：

hive启动时报Exception in thread "main" j ... | hbase 通过hbase命令数据导入导出（了解）

2016-02-28 15:11
浏览 897
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop运行流程详解: Hadoop运行流程详解 Hadoop运行流程详解 Hadoop运行流程详解 Hadoop运行流程详解 Hadoop运行流程详解

Hadoop安装配置流程: 在VMWare中安装好Linux操作系统，并自动配置好VMWare tools后。需要设置共享文件夹以便与windows系统互相传输文件，Hadoop安装配置流程图解

hadoop平台搭建流程: hadoop

hadoop3.3.0在centos7.7环境编译环境资源，附hadoop编译流程详细说明: hadoop编译流程详细说明 apache-ant-1.9.16-bin.tar.gz cmake-3.22.4.tar.gz protobuf-2.5.0.tar.gz snappy-1.1.4.tar.gz cyrus-sasl-2.1.26-23.el7.x86_64.rpm cyrus-sasl-devel-2.1.26-23.el7.x86_64.rpm cyrus-...

hadoop 读写文件流程详解: 在hadoop中，有三大法宝——HDFS，MapReduce，Hbase，但是无论是MapReduce，Hbase还是hadoop中的其他组件如：Hive等他们要处理的数据还是处理完了的数据都是存储在HDFS中。可见HDFS可以说是hadoop存储的基础和核心，...

hadoop完整安装流程: hadoop完整安装流程，附有所有图片，适合新手，一看就会。

hadoop基本流程与mapReduce应用开发.pdf: hadoop基本流程与mapReduce应用开发.pdf

hadoop2.7.3 hadoop.dll: 在windows环境下开发hadoop时，需要配置HADOOP_HOME环境变量，变量值D:\hadoop-common-2.7.3-bin-master，并在Path追加%HADOOP_HOME%\bin，有可能出现如下错误： org.apache.hadoop.io.nativeio.NativeIO$Windows....

漫话hadoop: hadoop是一个经典的分布式架构，本书以漫画的形式讲解hadoop的基本原理。当然，来源于网络。

HADOOP大数据平台系统思路流程图.rar: HADOOP大数据平台系统思路流程图，本人经过全方面学习了解，整理的一个大数据实时查询流程图

自己总结的hadoop HA安装流程: 自己总结的hadoop HA安装流程。公司是按这个流程安装的。没问题

CentOS6.5mini版hadoop集群搭建流程: CentOS6.5mini版hadoop集群搭建流程，内容比较简洁明了。

CDH搭建hadoop流程.doc: 使用CDH搭建hadoop集群，yarn集群，内附详细搭建流程，并记录了里面踩过的一些坑。

yeshenyong#FoodRecommendSys#hadoop 毕设流程1: 技术栈：Java、maven、hadoop、flask、前端知识步骤搭建hadoop 分布式环境，hdfs 存储训练数据，MapReduce（MR）进行训练数据

《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf: 《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

hadoop+hbase+zookeeper集群配置流程及文件: hadoop集群配置流程以及用到的配置文件，hadoop2.8.4、hbase2.1.0、zookeeper3.4.12

Hadoop下载 hadoop-2.9.2.tar.gz: Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

Hadoop下载 hadoop-3.3.3.tar.gz: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发: 第一天 hadoop的基本概念伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...

Hadoop豆瓣电影数据分析（Hadoop）操作源码: Hadoop豆瓣电影数据分析（Hadoop）操作源码

Global site tag (gtag.js) - Google Analytics