“`”

现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

如图,最下面一层就是hadoop的核心代码,核心代码之上实现了两个最核心的功能:<strong>MapReduce和HDFS</strong>,这是hadoop的两大支柱!因为hadoop是Java写的,为了方便其他对Java语言不熟悉的程序员,在这之上又有Pig,这是一个轻量级的语言,用户可以使用Pig用于数据分析和处理,系统会自动把它转化为MapReduce程序。

还有一个<strong>Hive</strong>,这是一个传统的SQL到MapReduce的映射器,面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫<strong>HBase</strong>,一个非关系数据库,NoSQL数据库,数据是列存储的,提高响应速度,减少IO量,可以做成分布式集群。

<strong>ZooKeeper</strong>负责服务器节点和进程间的通信,是一个协调工具,因为Hadoop的几乎每个子项目都是用动物做logo,故这个协调软件叫动物园管理员。

<ul>
<li>hdfs:</li>
<li>zookeeper:</li>
<li>YARN(Yet Another Resource Nagotiator,又一资源定位器):用于作业调度和集群资源管理的框架。</li>
</ul>

<pre><code> "“`

Was this helpful?

0 / 0

发表回复 0

Your email address will not be published.