hadoop学习笔记

hadoop生态系统是为了处理大数据集而产生的一个合乎成本效益的处理方案

hadoop是一个面向批处理的系统,MapReduce 为其实现的一个特别的计算模型,其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性。

这个计算的下面是一个被称为Hadoop分布式文件系统 (HDFS)的分布式文件系统。

mapreduce来自两个基本的数据转换操作:map过程和reduce过程。

map操作会将集合中的元素从一种形式转换成另一种形式。在这种情况下,输入的键-值对会被转换成零到多个键-值对输出。其中,输入和输出的键必须完全不同,而输入和输出的值则可能完全不同。

某个键的所有键-值对都会被分发到同一个reduce操作种,reduce过程的目的是将值的集合转换成一个值,或者转换成另一个集合,最终会产生一个键-值对。

 

作者: 黑鸟

看看样本,学学渗透,欢迎交流

发表评论

电子邮件地址不会被公开。 必填项已用*标注