[周报全文]“小”成本实现大存储

2013-11-12 |  作者:CNW.com.cn |  来源:独家 |  查看原文

摘要大数据对存储容量的高需求,让CIO不得不为新增的存储容量买单。但或许可以通过几种方法来降低大数据存储带来的成本提升。

大数据对存储容量的高需求,让CIO不得不为新增的存储容量买单。但或许可以通过几种方法来降低大数据存储带来的成本提升。

对于美国最大的互联网抵押贷款公司Quicken Loans而言,大数据并不是新鲜事。在2012年,该公司就需要从150万客户端中来存储和分析数据,住房贷款总额达到了700亿美元。也是从三年前开始,对于这家公司而言,大数据的格局变得更加“有趣”。

“当时,我们正开始专注于来自社交媒体的数据,包括Twitter、Facebook、Web追踪、Web聊天等。这些是大量的非结构化数据。”该公司首席信息官Linglong He表示:“如何存储这些数据很重要。因为这些数据对公司决策有着直接的影响,不仅影响着存储和架构策略,而且我们还需要将这些数据与结构化数据同步,使其对公司更有影响力。”

Quicken Loans公司已经有一个横向扩展的策略,使用集中式存储区域网络来管理数据增长。但大数据存储不仅需要可扩展的存储空间,而且还需要与这些数据量匹配的计算能力。解决方案就是Hadoop框架上的横向扩展节点。

“我们可以利用这些单个的节点、服务器、CPU、内存和RAM,以加快计算。”他说:“从成本、性能和增长的立场来看,这对我们更有影响力。”

随后,存储巨头为企业大数据存储带来新转机——存储变得更便宜,计算能力和存储能力齐头并进。

大数据带来“高”需求

当涉及大数据时,“存储不再被认为是封闭的孤岛。”IDC分析师Ashish Nadkarni说:“很多这些存储系统现在部署在具有内部驱动器的服务器上,这很像是Facebook或者谷歌的模式(其存储使用服务器内的内部驱动器部署)。有些服务器具有高达48个驱动器,而存储平台本身是完全受软件驱动的。这是使用通用操作系统来实现的,操作系统上具有软件核心。”

事实上,在大数据时代,企业在高速收集信息方面,传统的存储策略无法跟上。

根据Aberdeen集团的数据显示,存储的数据正以每年35%的速度在增长。这意味着IT部门每隔24到30个月就需要对其存储容量进行加倍扩容。“现在,IT预算中有13%花费在存储上。”Aberdeen分析师Dick Csaplar表示:“从现在开始的两年半时间里,这个数字将会发展为26%,然后是52%。很快,这将会失去控制,所以你不能继续反复采用相同的方式来存储数据。”虽然存储成本在下降,但这种下降速度并不足以抵消数据增长对存储带来的增长需求。

海量的非结构化数据也在持续增长。“每个人都在努力解决的严峻挑战是,很难从非结构化数据中挖掘出有效信息。”致力于数据分析的GE Software首席信息官Vince Campisi说:“传统的BI原则和形式仍然可行,但涌向你的信息密度远远高于运行业务系统中的日常操作。”

在大数据时代,企业如何构建数据存储策略,扩展存储架构来追上数据和业务的增长步伐,并控制存储成本?从已经遭遇大数据问题的企业获取经验,了解他们如何调整其存储策略是一条途径。

低端存储开始发力

在政治领域,数据也至关重要。政治分析公司Catalist需要存储和分析1.9亿注册选民,以及9000万未登记选民的数据,从其分析工具得出的信息能够让竞选组织者了解应该如何开展工作,甚至可以让候选人一夜之间改变他们的选民政策。

Catalist首席技术官Jeff Crigler指出:“我们曾经有一个大型存储系统,后来我们弃用了它,因为太昂贵,且消耗的能源也太多。”并且他说大型存储系统占据的空间也非常大。于是,该公司构建了一个NAS服务器集群,每个服务器承载PB级数据。“这基本上是一大盒具有处理器的磁盘,它们能像大型存储解决方案一样运行。例如它也拥有高密度磁盘驱动器、一些‘花哨’的配置软件,以及运行配置软件的CPU。”

Csaplar发现现在的趋势是,人们逐渐远离成本超过10万美元的存储产品,而转向能够做更多工作的较低成本服务器。“随着服务器变得更加强大,”他表示:“它们现在能够完成以前专门设备完成的工作。”这与网络从网卡演变为NIC卡类似。

Csaplar表示,企业不再购买大型昂贵的存储阵列,他们开始采用JBOD(只需要一堆磁盘)的方法,使用非智能设备用于存储,使用这些服务器的计算能力来管理。同时他又指出:“这将降低存储的总体成本(+微信网络世界),而你不会失去任何功能。或者说,它只需花20%的成本却能完成80%的工作。”

Catalist公司使用四个价值4万美元的NAS存储单元替代了其价值10万美元的产品。Crigler表示:“每个NAS存储单元花费1万美元就可以使容量翻两番,这还是一年半之前的情况。”目前,存储的成本仍在持续下降。

Csaplar表示,他预计市场上会出现更多低端存储系统,因为越来越多的企业会发现低端存储的价值。一些大型存储供应商也意?到了这一点,已经开始收购较小型的存储公司。

有针对性地选择数据库

数据分析工作流程工具允许存储的数据更靠近分析工具,而同时其文件压缩功能保持存储需求在控制之中。例如,惠普的Vertica产品具有数据库内分析功能,使企业能够执行分析计算,而不需要将信息提取到单独的环境进行处理。EMC的Greenplum产品也提供类似的功能。这两个产品都属于新一代列式数据库,与基于行的数据库相比,这种数据库技术旨在提供更好的性能、I/O、存储空间和效率。

Catalist选择了Vertica数据库来实现这些功能。因为这个数据库是列式数据库,而不是基于行的,它着眼于列中的数据的基数,并能进行压缩。这些基数描述了一个数据表与另一个数据表的关系,并进行一对多和多对一比较。

“在数据库中每个人的记录里,有一列被称为‘国家’,但在3亿注册选民的数据库中,它只在我们的数据库中出现50次。” Crigler表示:“在基于行的开源关系型数据库管理系统(例如Postgres和MySQL)中,它会出现3亿次。所以,如果你复制从街道名称到姓氏等所有信息的压缩时,这种方法能够帮助你节省大量的存储空间。这就是说,所选择的数据库技术确实影响着你需要多大的存储空间。”

在存储方面,重复数据删除、压缩和虚拟化将继续帮助企业减小文件大小和供以后分析的数据量。并且数据分层能够帮助更快地将最关键的数据带给分析工具。

固态硬盘(SSD)是另一个流行的数据存储介质,它能够确保数据随时可用。基本上闪存驱动器已经成为数据分层的底层,SSD以非常快的响应模式保存数据。Csaplar说:“SSD让数据非常接近处理器,使服务器能够分配I/O来快速分析数据。”SSD一度被认为太昂贵,而现在其价格已经下降,即使是中型企业也可以在其磁盘和处理器之间部署SSD层。

云存储:降低成本的新方法

在大数据存储策略中,云存储正在发挥越来越重要的作用。在业务遍布世界各地的企业(例如石油和天然气)中,从传感器生成的数据被直接发送和存储到云环境中,在很多情况下,他们还在云中进行数据分析。

IDC的Nadkarni指出:“如果你需要从10个或更多的来源收集数据,就不太可能将其积压到一个数据中心,因为存储这么多数据不符合成本效益。”

例如,多年来GE公司一直在对机器传感器上的数据进行分析,他们使用“机器对机器”大数据来制定飞机维修计划。Campisi表示,几个小时内,从电厂燃气轮机收集的数据量都可以让从社交媒体网站一整天收集的数据量“相形见绌”。

企业正在使用云计算来收集数据,并当场分析数据,省去了将数据转移到数据中心的麻烦。Nadkarni补充说:“像亚马逊这样的公司可以给你一个计算层来分析云计算中的数据,当完成分析后,可以将数据从S3层转移到Glacier层。”

Glacier是亚马逊云计算服务今年早些时候推出的低端存储方式,这种存储方法旨在将数据“搁置”数十年。其他公司也推出了类似的云计算存储服务。Csaplar指出,这些产品价格合理,并且拥有专业的管理,并可作为最终的存储场所。

Nadkarni表示:“只要你的数据没有任何敏感信息,就可以将数据转存到这种存储方式,减少数据中心占地面积。”

主流企业也开始对使用云计算存储和分析数据表现出浓厚的兴趣,在IDC报告的调查中,约有20%的IT领导称已经将数据转移到云计算来增加他们的分析能力,即使他们有自己的数据中心来执行分析。

“这主要有两个原因,”Nadkarni解释说:“首先,很多时候这些项目不是由IT部门进行的。其次,由于部署时间的限制,很多企业发现他们可以更容易地在云中启动多个实例,所以执行时间可以从几周缩减到几天。”

Campisi表示,其部门支持的大部分客户仍然在现场存储和分析数据。“我们正在越来越多地使用云计算技术和功能来支持我们的策略。从客户的角度来看,这更像是传统的方法,他们可以使用自己企业的内部数据中心。”

Catalist的Crigler正在试图弄清楚如何将所有的Catalist数据转移到云计算环境中。该公司已经将涉及选民身份信息的数据库复制到云计算中。“因为这是大量数据,经常需要使用,”他表示:“在选举的四到五个月前,这些数据都需要使用。因此,扩展处理能力和投入更多磁盘及CPU是非常重要的。”

他还试图想出一种策略,根据对数据类型的需求,以及对历史数据进行分析查询的需求来挖掘最大的性能。

“这是一个很大的挑战。”Crigler说:“例如,亚马逊的Elastic Block Store很慢,而S3更慢,最好的选项又是最昂贵的。如将专用存储附加到大型亚马逊服务器上,这真的很昂贵。因此,你需要想办法为不同类型和不同时间的数据进行分析,以及计算性能价格比,并根据真实的需求来优化存储。”

虽然很多公司仍然处于解决其大数据存储策略的早期阶段,但相信在不久的将来,超大规模计算环境(例如谷歌和Facebook的环境)将会越来越普遍。

“这正在发生。”Nadkarni表示:“这种完全基于服务器的存储设计,是亚马逊、Facebook和谷歌等公司遵循的做法的直接结果。”

在硅谷,很多初创公司正在基于这些公司的原则提供大数据存储系统。在VMware最近的VMworld虚拟化会议上,至少有十几家公司的创始人曾经在谷歌和Facebook工作过。

出于法律原因,这些初创公司不能直接复制其前雇主的“神奇”,但其原则已经广泛普及。在未来几年,你将看到这种超大规模计算环境进入主流企业。因为没有任何其他方法能做到这一点。(更多内容详见: http://www.cnw.com.cn/P/5246)

相关文章