最新新闻 终于有人把 Hadoop 生态的中央讲清新了!
最新新闻

你的位置:注册送38元-注册送38元不限id > 最新新闻 >

最新新闻 终于有人把 Hadoop 生态的中央讲清新了!

发布日期:2021-09-11 13:17    点击次数:165

Hadoop是一个由Apache基金会开发的分布式编制基础架构。开发人员能够在不晓畅分布式底层细节的情况下开发分布式程序,足够行使集群的威力进走高速并幸运算以及海量数据的分布式存储。Hadoop大数据技术架构如图1所示。

新华社北京5月5日电(记者刘夏村)记者5日从应急管理部获悉,截至当日20时,“五一”假期期间全国安全形势总体平稳,未发生重特大生产安全事故和自然灾害。

中新网5月6日电 据国家卫健委网站消息,5月5日0—24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例5例,均为境外输入病例(四川2例,云南2例,广东1例);无新增死亡病例;新增疑似病例1例,为境外输入病例(在上海)。

5月5日0-24时,全省新增境外输入确诊病例1例,广州报告,来自喀麦隆。新增境外输入无症状感染者1例,广州报告,来自科特迪瓦。新增出院3例。

羊城晚报全媒体记者马灿、通讯员沈甸报道:5月4日傍晚,受强雷雨云团影响,广东地区暴雨倾盆、电闪雷鸣。南方电网广东电网公司全力迎战各地暴雨,保居民用电安全。截至5月5日下午4时,5.2万受影响用户已全部复电。

羊城晚报全媒体记者李志文、通讯员刘雅摄影报道:“五一”假期,由于“补偿式”探亲、旅游观光等客流交织,广州南站客流呈现假期头尾长途多、中间短途多、总体高位运行的特征。

图1 Hadoop大数据技术架构

然而最新新闻,Hadoop不是一个孤立的技术,而是一套完善的生态圈,如图2所示。在这个生态圈中,Hadoop最中央的组件就是分布式文件编制HDFS和分布式计算框架MapReduce。HDFS为海量的数据挑供了存储,是整个大数据平台的基础,而MapReduce则为海量的数据挑供了计算能力。在它们之上有各栽大数据技术框架,包括数据仓库Hive、流式计算Storm、数据发掘工具Mahout和分布式数据库HBase。此表,ZooKeeper为Hadoop集群挑供了高郑重运走的框架,保证Hadoop集群在片面节点宕机的情况下照样郑重运走。Sqoop与Flume别离是结构化与非结构化数据采集工具,议决它们能够将海量数据抽取到Hadoop平台上,进走后续的大数据分析。

图2 Hadoop大数据生态圈

Cloudera与Hortonworks是大数据的集成工具,它们将大数据技术的各栽组件集成在一首,简化安设、安放等做事,并挑供联相符的配置、管理、监控等功能。Oozie是一个营业编排工具,吾们将复杂的大数据处理过程解耦成一个个幼脚本,然后用Oozie机关在一首进走营业编排,按期实走与调度。

01分布式文件编制

以前,吾们用诸如DOS、Windows、Linux、UNIX等很众编制来在计算机上存储并管理各栽文件。与它们分别的是,分布式文件编制是将文件散列地存储在众个服务器上,从而能够并走处理海量数据。

Hadoop的分布式文件编制HDFS如图3所示,它最先将服务器集群分为名称节点(NameNode)与数据节点(DataNode)。名称节点是限制节点,当必要存储数据时,名称节点将很大的数据文件拆分成一个个大幼为128MB的幼文件,然后散列存储在其下的很无数据节点中。当Hadoop必要处理这个数据文件时,实际上就是将其分布到各个数据节点上进走并走处理,使性能得到大幅升迁。

图3 分布式文件编制HDFS

同时,每个幼文件在存储时,还会进走众节点复制(默认是3节点复制),一方面能够并走读取数据,另一方面能够保障数据的坦然,即任何一个节点失效,数据都不会丢失。当一个节点宕机时,倘若该节点的数据不能3份,就会立即发首数据复制,首终保持3节点的复制。正由于具有如许高郑重的文件存储,Hadoop的安放不必要备份,也不必要磁盘镜像,在Hadoop集群的各个节点中挂载大容量的磁盘并配置Raid0就能够了。

02分布式计算框架

Hadoop的另一个关键组件是分布式计算框架MapReduce,它将海量数据的处理分布到许无数据节点中并走进走,从而挑高编制的运走效果。

MapReduce计算词频的处理过程如图4所示。在这个过程中,最先输入要处理的数据文件,经过Splitting将其拆分到各个节点中,并在这些节点的本地实走Mapping,将其制作成一个Map。分别的义务能够设计分别的Map。譬如,现在的义务是计算词频,所以该Map的key是分别的词,value是1。如许,在后续的处理过程中,将相通词的1添在一首就是该词的词频了。

图4 分布式计算框架MapReduce

Mapping操作实走完以后,就最先Shuffling操作。它是整个实走过程中效果最差的片面,必要在各个节点间交换数据,将联相符个词的数据放到联相符个节点上。如何有效地降矮交换的数据量成为优化性能的关键。接着,在每个节点的本地实走Reducing操作,将联相符个词的这些1添在一首,就得到了词频。末了,将分布在各个节点的效果荟萃到一首,就能够输出了。

整个计算有6个处理过程,那么为什么它的名字叫MapReduce呢?由于其他处理过程都被框架封装了,开发人员只必要编写Map和Reduce过程就能完善各栽各样的数据处理。如许,技术门槛降矮了,大数据技术得以通走首来。

03优弱点

与传统的数据库相比,MapReduce分布式计算固然有无与伦比的性能上风,但并不适用于一切场景。MapReduce异国索引,它的每次计算都是“暴力全扫描”,即将整个文件的一切数据都扫描一遍。倘若要分析的效果涉及该文件80%以上的数据,与有关型数据库相比,能获得专门卓异的性能。倘若只是为了查找该文件中的某几十条记录,那么它既消耗资源,性能也异国有关型数据库益。所以,MapReduce的分布式计算更正当在后台对批量数据进走离线计算,即一次性对海量数据进走分析、清理与运算。它并不适用于在前台面向终端用户的在线营业、事务处理与随机查询。

同时,MapReduce更正当对大数据文件的处理,而不正当对海量幼文件的处理。所以,当要处理海量的用户文档、图片、数据文件时,答当将其整相符成一个大文件(序列文件),然后交给MapReduce处理。唯有如许才能足够发挥MapReduce的性能。

本文摘编自《架构真意:企业级行使架构设计手段论与实践》,经出版方授权发布。

【编辑保举】最新新闻

搜索引擎搭建-Hadoop,Hbase,Nutch,Solr视频课程 IDEA 联相符开发Hadoop(MapReduce)+Spark程序 Linux下如何迅速安设Hadoop 一篇学会Hadoop3数据容错技术 Hadoop、Spark、Hive到底是什么,做算法要不要学?

友情链接:

Powered by 注册送38元-注册送38元不限id @2013-2021 RSS地图 HTML地图