目录:
- Hadoop是如何开始的?
- Hadoop有何重要意义?
- 什么是读取模式?
- 什么是Hive?
- Hadoop分析什么样的数据?
- 您可以举一个真实的Hadoop示例吗?
- Hadoop已经过时了还是只是变型了?
什么是Hadoop? 这是一头黄色的玩具大象。 不是您所期望的吗? 怎么样:这个开源软件项目的共同创始人道格·切特(Doug Cutting)从儿子那里借来了这个名字,而这个儿子恰巧叫他的玩具大象Hadoop。 简而言之,Hadoop是由Apache Software Foundation开发的软件框架,用于开发数据密集型分布式计算。 这是另一个流行语的关键组成部分,读者似乎永远无法获得足够的东西:大数据。 关于此独特的免费许可软件,您应该了解以下七件事。
Hadoop是如何开始的?
十二年前,谷歌建立了一个平台来处理其收集的海量数据。 像该公司通常所做的那样,Google以两篇论文的形式向公众公开了其设计:Google File System和MapReduce。
同时,道格·切特(Doug Cutting)和迈克·卡法雷拉(Mike Cafarella)正在研究新的搜索引擎Nutch。 两者也都在努力处理大量数据。 然后,这两个研究人员对Google的论文产生了兴趣。 幸运的交集通过将Cutting和Cafarella引入一个更好的文件系统以及一种跟踪数据的方式,改变了一切,最终导致了Hadoop的创建。
Hadoop有何重要意义?
今天,收集数据比以往任何时候都容易。 拥有所有这些数据会带来很多机会,但同时也存在挑战:- 大量数据需要新的处理方法。
- 捕获的数据为非结构化格式。
接下来,他们必须处理非结构化数据或标准关系数据库系统无法处理的格式的数据。 Cutting和Cafarella设计Hadoop来处理任何类型的数据:结构化,非结构化,图像,音频文件甚至文本。 这份Cloudera(Hadoop集成商)白皮书解释了为什么这很重要:
-
“通过使所有数据(不仅是数据库中的数据)可用,Hadoop使您能够发现隐藏的关系并揭示始终无法企及的答案。您可以开始基于硬数据而不是凭直觉做出更多决策,然后查找使用完整的数据集,而不仅仅是样本和摘要。”
什么是读取模式?
如前所述,Hadoop的优势之一是其处理非结构化数据的能力。 从某种意义上讲,这就是“将罐子踢倒”。 最终,数据需要某种结构才能进行分析。
这就是读取模式起作用的地方。 读取时的模式是数据的格式,在何处查找数据(记住数据分散在多个服务器中)以及对数据要做什么的融合,这不是一个简单的任务。 有人说,在Hadoop系统中操作数据需要业务分析师,统计学家和Java程序员的技能。 不幸的是,拥有这些资格的人并不多。
什么是Hive?
如果Hadoop要成功,则必须简化数据的处理。 因此,开源人群开始工作并创建了Hive:-
“ Hive提供了一种将结构投影到该数据上并使用类似于SQL的语言称为HiveQL来查询数据的机制。与此同时,这种语言还允许传统的map / reduce程序员在不方便或不方便时插入其自定义的mapper和reducers。在HiveQL中无法表达这种逻辑。”
Hive实现了两全其美:熟悉SQL命令的数据库人员可以操纵数据,而熟悉读取过程中的模式的开发人员仍然能够创建自定义查询。
Hadoop分析什么样的数据?
Web分析是想到的第一件事,它分析Web日志和Web流量以优化网站。 例如,Facebook肯定会涉足Web分析,它使用Hadoop对公司积累的TB数据进行排序。
公司使用Hadoop集群来执行风险分析,欺诈检测和客户群细分。 公用事业公司使用Hadoop分析其电网中的传感器数据,从而使他们能够优化电力生产。 Target,3M和Medtronics等主要公司都使用Hadoop来优化产品分配,业务风险评估和客户群细分。
大学也在Hadoop上进行了投资。 圣托马斯大学软件研究生课程副教授布拉德·鲁宾(Brad Rubin)提到,他的Hadoop专业知识正在帮助整理该大学研究小组收集的大量数据。
您可以举一个真实的Hadoop示例吗?
TimesMachine是最著名的例子之一。 《纽约时报》收集了整版报纸TIFF图像,相关的元数据和1851年至1922年的文章文本,总计达到TB级数据。 NYT的Derek Gottfrid使用EC2 / S3 / Hadoop系统和专用代码,:-
“摄取了405, 000张非常大的TIFF图像,SGML中的330万篇文章和405, 000个xml文件,这些文章将文章映射到TIFF中的矩形区域。此数据转换为对网络更友好的810, 000个PNG图像(缩略图和完整图像)和405, 000个JavaScript文件。 ”
Gottfrid提到使用Amazon Web Services云中的服务器,他们能够在36小时内处理TimesMachine所需的所有数据。
Hadoop已经过时了还是只是变型了?
Hadoop已经存在了十多年了。 很多人说它已经过时了。 一位专家David Rico博士说:“ IT产品寿命很短。在狗年里,Google的产品大约有70种,而Hadoop的只有56种。”
Rico所说的可能有些道理。 看来Hadoop正在进行重大改革。 要了解更多信息,Rubin邀请我参加了Twin Cities Hadoop用户组会议,讨论的主题是YARN简介:
-
“ Apache Hadoop 2包括一个新的MapReduce引擎,与以前的实现相比,它具有许多优点,包括更好的可伸缩性和资源利用率。该新实现是在用于运行分布式应用程序的通用资源管理系统YARN上构建的。”