关于大数据的思考――《大数据思维与决策》读后感

2015-07-27 |  作者:中国大数据 |  来源:CIO时代网 |  查看原文

摘要不难理解大数据在我们生活的重要性。随着科技发展,网络无处不在,存储信息的本质是数字0和1(至少目前的计算机是如此),因而可以说数据无处不在。

“21世纪的竞争是数据的竞争,谁掌握数据,谁就掌握未来。”——马云

不难理解大数据在我们生活的重要性。随着科技发展,网络无处不在,存储信息的本质是数字0和1(至少目前的计算机是如此),因而可以说数据无处不在。

在《大数据思维与决策》中,作者采用大量例子说明近20年来大数据对传统行业、传统思维的冲击,从医学到教育领域到金融行业再到互联网,大数据思维的冲击是史无前例的。

一、回归方程带来的冲击

从前人们的决策几乎全靠人为经验判断,作者在这个问题里举了“寻找棒球队员”的例子,传统的方式是经理人(暂以此名字代表挖掘球员的人)通过观看无数场(书中有列出具体数字)球赛,观察球员的每一个细致动作,经理人根据经验判断该球员是否有潜力成为球星。该方式代价非常大且人为主观因素会影响决策正确率。大数据思维则是分析球员历史训练及比赛的记录数据,利用数理统计的回归方法(必须掌握)分析数据,从而预测有潜力值球员。相对传统方式,大数据方法成本大大降低,且准确率更高。显然,新的方式对传统经理人带来的冲击是极大的,新的思想总会被质疑、抗拒。不过最终由一个胖球员不被看好,数据显示有潜力,最终成为球星的例子证明大数据引导决策是正确的。

正如书中所说,数据比人客观,且现在大规模数据的获取更加容易,价格便宜甚至免费。回归方法在数据处理中还是十分的有用,必须掌握这一技能。

二、随机试验

作者提到的第二个很有用的方法是随机试验。基本思想是:

随机抽取样本,控制单一变量,进行试验,分析试验数据检验哪个方式更加具有价值。

这里采用的例子很多,其中一个就是某一个网站(具体网站名忘了……暂且称作Test)利用随机随机试验方法为网站开发者提供工具检测怎样的界面用户更加喜欢。例如,某一栏是“收藏”还是“收藏与购买”。 Test利用随机试验思想对开发网站采取控制变量检测,随机为用户展示以上两种方式的开发网站(仅“收藏”与“收藏与购买”的差异),通过统计用户点击行为,则可以评估哪种网页更被用户喜欢。

随机试验思维在大数据下显得更加有用,文中还列举了巴西(?具体不记得了)“穷人母亲产前补助”、“医生洗手对手术患者死亡影响”、“某一政策是否正确”等例子说明大数据下随机试验的利用。

随机试验思想确实是一个很实用的方法,在以后遇到数据处理、数据决策之前应不忘考虑这种方法。

三、大数据决策的弊端

万物皆有两面性,大数据决策为我们提供很多快捷、准确的预测。但是,过分依赖数据则让我们在很多时候得出的结果相差很大。例如,根据某人的历史数据分析预测下周五会去看电影,然而周末该人不小心骨折住院。尽管数据采集到骨折数据,模型不会因此而改变,因为该数据历史影响甚微,模型会忽略,仍然会认为该人去看电影。根本原因在于模型不会像人那样正确考虑到骨折的权值,即使是神经网络模型(我的理解是至少现在的神经网络模型还是没有人那么聪明),计算机的经验是有限的,尽管他能够存储很多内容,不代表他有人的智慧。所以很多情况下,人为的干预是十分重要的。

利用大数据进行决策,人为的经验还是不可或缺的,权值的设定,参数的调整,初值的设定等这些都是经验得来的,但是即使是这些经验,也不能太过依赖,因为数据在变化,世界在变化,以前正确的下一秒随时错误。总的来说,数据与人为经验相结合,互为促进,至于之间的尺度,估计只能在接触到该行业多年后才会有所想法吧,现在还是太年轻……

四、大数据下的隐私

随着科技发展,智能设备越来越普及,信息无处不在,数据无处不在。谷歌等都倡议数据共享,建立人人都可以利用的数据库。对于数据开发者、数据决策者而言的确是十分有利的。能够为客户创造价

相关文章