`

hadoop1架构基本理解

 
阅读更多

 

0 出现原因:

 

业务场景:在1T数据中,找最小值


a) 集中式处理方式:

不断从硬盘加载部分数据放在机器内存中处理,然后丢弃内存数据,继续加载处理,
这样CPU真正计算时间是很少的,大部分时间都用在了磁盘IO上,
硬盘转速是固定的7200转,相对于内存速度和CPU速度,这种物理瓶颈无法处理,影响了整个作业速率。
特点: 将数据加载到计算区

 

b) 分布式处理方式:

1T的数据分散到多台机器上存储,后将计算请求分散到多台机器上来执行,然后分结果在汇总做一次处理

为了防止分散数据丢失,每一个存储数据节点在弄2个备份节点

特点: 将计算逻辑加载到数据区

 

明显b方案更适合,但是问题又来了:这种操作模式对于操作人而言,是不是复杂了很多,答案是肯定的,

人们有提成了一个目标:

数据虽然分散存储,但是对操作人员而言,看不到数据的分散状况,
操作人员只需要配置一个分配策略,然后再来服务的时候,服务会交给一堆集群的机器来执行。

 

此时Hadoop就应运而生,既满足b方案,同时也达到了人们提出简洁操作,分布屏蔽相对于人封装的目的

 

 

1 hadoop 架构简介:

 

分为hdfs   mapreduce 两部分,  两者都是主从结构,

 

hdfs:

   主从结构
            主节点,只有一个: namenode
             从节点,有很多个: datanode

    namenode负责:
              接收用户操作请求,是用户操作的入口
              维护文件系统的目录结构,称作命名空间

    datanode负责:
                存储文件

 

    namenode相当于库管,你去存货取货,需要问库管明确要存/取的具体仓库位置,一旦明确后,你就直接去仓库(datanode)做的你的事情,因此真正存取操作是 客户端和datanode的直接交互。

     在存储的时候,比如数据很大,被分在两个datanode节点上, 那么A节点存一半,B节点存一半,

     同时hdfs 又会拿出A1,A2节点备份A的这一份数据,  B1,B2备份B的这一份数据

mapreduce:

      主从结构
              主节点,只有一个: JobTracker
              从节点,有很多个: TaskTracker
      JobTracker负责:
              接收客户提交的计算任务
              把计算任务分给TaskTrackers执行,即任务调度
               监控TaskTracker的执行情况
       TaskTrackers负责:
               执行JobTracker分配的计算任务

 

       

 namenode对内存要求较高,

jobtracker因为一直要接收用户请求,对CPU要求高一些,

因此,两者建议分别放在两台机器中

 

 

集群图如下:

 



 

 

 

操作流程如下,个人总结,有待完善:

 

 



 



 

 

 

  • 大小: 88.1 KB
  • 大小: 28.3 KB
  • 大小: 11.1 KB
分享到:
评论

相关推荐

    Hadoop MapReduce架构

    尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更适合初学者理解 MapReduce 的核心概念。所以,本教程首先使用 MapReduce 1.0 来介绍 MapReduce 的核心概念,然后再在此基础上介绍 MapReduce 2.0。 一...

    Hadoop实战中文版

    书籍目录: 第一部分 Hadoop——一种分布式编程框架 第1章 Hadoop简介 1.1 为什么写《Hadoop 实战》 1.2 什么是Hadoop 1.3 了解分布式系统和Hadoop 1.4 比较SQL 数据库和Hadoop 1.5 理解MapReduce 1.5.1 动手...

    Hadoop实战中文版.PDF

    Hadoop——一种分布式编程框架第1章 Hadoop简介 21.1 为什么写《Hadoop 实战》 31.2 什么是Hadoop 31.3 了解分布式系统和Hadoop 41.4 比较SQL数据库和Hadoop 51.5 理解MapReduce 61.5.1 动手扩展一个...

    Hadoop实战(第2版)

    真实的场景,实用的解决方案 ·如何整合MapReduce和R前言 致谢关于本书 第1 部分 背景和基本原理1 跳跃中的Hadoop1.1 什么是Hadoop 1.1.1 Hadoop 的核心组件1.1.2 Hadoop 生态圈1.1.3 物理架构1.1.4...

    Hadoop实战丛书

     全书一共18章:第1章全面介绍了hadoop的概念、优势、项目结构、体系结构,以及它与分布式计算的关系;第2章详细讲解了hadoop集群的安装和配置,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、...

    《Hadoop与大数据挖掘》配套资源【完整版】.txt

    在每个模块的最后,会有一到两个企业案例,对这些企业案例的介绍只限于部分介绍,主要还是使用当前模块的技术来解决其中的一到两个问题,这样读者不仅对技术的原理、架构有了较深入的了解,同时,对于如何应用该技术...

    学习笔记(01):Hadoop大数据从入门到精通-Hadoop的介绍及基本概念

    把Hadoop理解为: 1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发 2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。 Hadoop的历史: 1....

    五种大数据架构简介.pdf

    五种⼤数据架构简介 ⼤数据是收集、整理、处理⼤容量数据集,并从中获得见解所需的⾮传统战略和技术的总称。虽然处理数据所需的计算能⼒或存储容量早已 超过⼀台计算机的上限,但这种计算类型的普遍性、规模,以及...

    实时计算Samza中文教程.pdf

    Samza是一款优秀的分布式流处理框架,非常像Twitter的流处理系统Storm(即Lambda架构Hadoop+Storm)。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统(即Kappa架构Kafka+Samza)。其优势...

    大数据离线计算的架构与组件.pdf

    ⼤数据离线计算概述 (1)所谓⼤数据离线计算,就是利⽤⼤数据的技术栈(主要是Hadoop),在计算开始前准备好所有输⼊数据,该输⼊数据不会产⽣变化,且在解决⼀个问题后就要⽴即得到计算结果的计算模式。 (2)离线...

    Hbase 源码解析

    在这之前,你应该具备基本的Hadoop知识,包括所需组件的设置以及成功安装过Hadoop集群,我们不会在Hadoop的配置或NodeManager功能上花费时间。阅读本书的架构师不需要有一个完整的Java 知识,但必须充分了解部署章节...

    大数据学习计划.pdf

    理解并实现 Hadoop YARN 的多 租户架构 掌握 Zookeeper 组件原理; 掌握 Hadoop 集群优化路径; 3 传统数据仓库在⾯对更⼤规模数据时显得⼒不从⼼,在寄希望于⼤数据平台时,MapReduce 编程门槛让很多数据分析师望⽽...

    EasyMR并行架构技术源码 v1.0

    一、源码特点1、简单易用:(1)部署实施简单整个框架是基于.NET Framework2.0开发,绿色不需要任何安装和复杂配置,相对与Hadoop简直可以用轻松来形容,可以让任何一个程序员或者IT短时间内快速搭建起属于自己的并行...

    大数据面试常见问题(会这些就不用怕了!)

    适用人群: 该文档适合大数据领域的初学者和中级专业人士,特别是那些希望加深对大数据技术、工具和最佳实践理解的工程师、数据科学家和IT架构师。 使用场景及目标: Spark生态系统:了解Spark的核心组件和与Hadoop...

    大数据工程师学习计划.pdf

    Linux 基本操作 Hadoop(HDFS+MapReduce+Yarn ) HBase(JavaAPI操作+Phoenix ) Hive(Hql基本操作和原理理解) Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ) 辅助⼩⼯具(Sqoop/Flume/...

    大数据心得体会(1).doc

    在云技术中,虚拟化技术 乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据 在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。 在人类文明史上,人类一直...

    Curso-Intro-Big-Data:大数据课程资料介绍

    数据工程课程介绍 该项目包含数据工程概论课程的材料和代码,该课程提供给Móstoles ... 建议至少具有以前的编程经验(尽管不一定是课程中考虑的语言),以及以前的计算架构知识以及分布式系统和关系数据库的基本概念。

    大数据心得体会.doc

    在云技术中,虚拟化技术 乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数 据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。 在人类文明史上,人类...

Global site tag (gtag.js) - Google Analytics