Hadoop:数据依赖型公司最有价值的工具

2015-08-16 |  作者:Bethany Cleg |  来源:TechTarget中国

摘要Hadoop提供了一个用于存储大规模数据的开源平台。Hadoop是一个开放工具集,支持可变连接类型和数据结构。它开放给云环境中位于多个主机的分布式数据平台。

Hadoop是什么?为何它如此重要?

Hadoop提供了一个用于存储大规模数据的开源平台。Hadoop是一个开放工具集,支持可变连接类型和数据结构。它开放给云环境中位于多个主机的分布式数据平台。简单地说,它是一种数据存储方式,支持使用多个平台和多个操作系统的多个计算机。它是一个Apache开源项目,支持搜索Web中的大数据。它是一组批处理工具,可供任何公司使用。它并不是单独一个下载后在网站或应用中运行的应用程序。

大数据

大数据是一种现代云基础架构,它包含了多种与其他人连接和共享信息的方法。它推动了“物联网”的发展,如通过社交网站连接人、通过共享朋友或网络来寻找人们之间互相认识的可能性。大数据的背后运行着人工智能,而它对于大多数人而言是完全透明的,人们不知道背后有这样的技术。大数据位于人们日常使用的智能手机之后,然后人们通过它给移动互联网贡献信息,即使他们并没有意识到这一点。

此外,大数据对于人脸识别软件等也有贡献。Facebook等公司利用这些技术去询问人们是否想要给其他人或公司打上“标签”,使软件平台能够识别和认出他们。大数据会在专业网络或约会网站中根据人们分享的兴趣或职场关系将他们连接在一起;更重要的是,医疗公司同样利用大数据去分析大规模生物数据,以实现伴随诊断和个性化医疗。

为什么大数据很重要?

大数据的重要性体现在很多方面。首先,它可以识别人们上网浏览的模式,从而给特定类型的人或群组推送与访问内容相关的广告及发送电子邮件或社交媒体广告。其次,它可以扫描用户选择屏蔽的内容,如特定类型的广告或媒体。第三点可能也是最重要的一点,它可以根据用户的上网浏览活动推荐各种网站或广告。这可以根据广告点击、视频观看、社交网站链接点击和特定关键词来实现。此外,Hadoop也可以很好地整合其他数据集。微软BI工具也支持Hadoop,它可以方便地整合多个数据工具,可以将多个设备的多个平台协同工作。

Apache也推出了支持Hadoop的开源分布式分析引擎OLAP。它属于一个名为Kylin的项目,目的是为了缩短Hadoop数据集的查询延迟时间。EBay公司设计了OLAP的SQL接口(+微信网络世界),作为支持一些最大型数据集的方法。此外,Kylin还支持压缩和编码、简单易用的Web界面和作业管理与监控。

Hadoop有何作用?

互联网巨头谷歌、Twitter和Facebook等一直都有能力利用Hadoop管理超大规模数据。Hadoop是一个用于解决大规模数据问题的非商业解决方案。Hadoop是一个分布式计算系统,底层基于Linux操作系统。这意味着Hadoop在处理数据时并不需要使用传统的高端超级计算机,而是用许多普通计算机来处理数据。Hadoop系统能够在任意时间处理超大规模且不断增长的数据,而计算机网络则是它的重要组成部分。换而言之,原来需要购买昂贵硬件和雇佣专业技术人员才能完成的工作,现在都可以在云中交由一些非专业人员完成。增加业务效率就可以在不增加员工数量的前提下完成更多的工作。大数据的设计初衷就是这一点。除了财务和销售,许多公司还使用大数据解决方案跟踪员工和内部流程。为什么呢?因为这些数据可以帮助他们发内部的“漏洞”,发现员工在哪些方面最需要改进和帮助。这自然就转化为开展定制培训或精简组织结构。用大数据构建的内部蓝图清楚地告诉人们:业务决策完全可以变成一种轻松愉快的过程。

因此,为业务发展提供帮助是Hadoop的一个重要任务。它依靠各种相对廉价的计算机。如果有一台计算机出现问题,那么更换它也比更换一直使用的大规模超级计算机容易得多。Hadoop包含一组工具,而不只是一个提供数据管理功能的软件。它也是一个开源平台,这意味着它可以根据公司需求而扩展,并且不需要大规模硬件或软件投入。

总结

只要有许多用户使用网站来完成数据库管理及其他工作,Hadoop就可以完成任何数据库需求。Hadoop可以根据公司特定产品的用户反馈而扩展使用任意数量的公司物理主机,并且一切都会在公司运营主管的指示下进行。

相关文章