按照旧时老先生的说法,如今大数据算是“显学”,尤其是做跟网络有关的东西,比如新媒体,如果要不在话里话外叨咕两句“大数据”、“长尾”什么的,都不好意思跟人打招呼了。
因为工作的原因,我算是接触了一些所谓的“大数据作品”,然而看了半天,我这个搞文字工作的人,却觉得这东西跟我以前做记者时经常打交道的一类人挺像——骗子!
根据百度百科,大数据是这么个玩意儿:
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
泥垢了吧!这中英文夹杂在一起,真因为自己高大上啊,欺负学文科的算账不灵是么?其实这种东西在上世纪80年代就有了好吧!那时候你们这帮张口闭口大数据的小破孩还没生出来呢!当时是这么表述的:
在近500場的撲克牌梭哈賭局中,只要賭神想「偷雞」(bluff)時必定會先摸摸手上的戒指。
对了,这就是1989上映的周润发神作《赌神》,估计很多人都看过各种续集。其实你们想想,如果把赌博当成一种经营行为,用500场赌局来统计一个人赌牌的习惯动作,算不算是撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯呢?而且从当时的科技手段来说,500场赌局绝对算得上是那个时代的海量数据了。所以这东西我第一眼就觉得似曾相识,原来是小时候电影的桥段就有啊。
凡事只要脱掉了新鲜的外衣,露出本质来,就容易识别了。先甭说什么4V了,说穿了这个东西就是靠收集常人无法收集的数据来预测未来。虽然说科学发展到极致便与魔法无异,但是任何预测未来的行为,向来都有其不可克服的弱点。而在我一个文科生看来,大数据预测未来指导行动,至少有三个死穴:
-
第一个死穴,就是逻辑上因果关系并不严密。
以前我听过一个笑话,说有人拿青蛙做实验,每次切掉青蛙一条腿,就拍一下巴掌,直到把青蛙的四条腿都切掉,然后青蛙终于对声音没有反应了,于是说明青蛙的听觉器官是长在左后腿上的。
如果按照大数据的理论,这个故事只要扩展到海量(比如所有青蛙),就可以证实青蛙的听觉器官确实长在后腿了。但是我这个人就是这么固执,你就算把所有青蛙都宰了,我也不会相信青蛙靠后腿听声音。说穿了你这个因果关系就是不靠谱的。
而大数据第一个薄弱项就是,用所谓数据来表达的因果关系是难以确认的,你很难确认两组数据之前的因果关系就一定是像你猜测的那样。同时,由于这个因果关系还受到其他数据的影响,所以你也不知道当其他外部因素变化之后,这个因果关系是否还成立。尤其很多大数据的因果关系是采用了先计算结果,然后推测原因的方式。
现成的例子就是谷歌有一个流感趋势,2008年的时候用来预测流感显得特别精准,但是到了2013年这招却不灵了。于是专家说什么要换个算法啦,要精确数据啦,其实所谓的“搜索的人多所以感冒的人多”这种因果关系不就是有了数据之后扣上去的么?你根本无法确定吧。 -
第二个死穴,数据挖掘可能出现偏差。
大概在几年前,网上曾经有一个调查,说中国人每个人有六个性伙伴!六个哎!您还真是不怕把中国人累着,反正我是结结实实地拖了一把后腿。
按照调查发布方的说法,他们也是攒了海量网民的数据,才得出这个牛逼的结论的。但是这个结论明显不靠谱吧。后来有人分析,首先这只是网民的说法,而当时中国的网民不过数千万,其中又以学生和有闲阶层居多,本来就不代表国民。
其次就是会参加这个性伙伴调查的人,大部分都是很开放的人,所以在这个人群里性伙伴的比例可能偏高。
最后一点,就是中国男人爱吹牛!巴不得说自己有三宫六院才有面子。
所以结论就是这个数据挖掘是不准确的。
其实每一次数据挖掘都存在这三个问题:数据挖掘对象就是全体对象么?数据挖掘的筛选是否影响结论?你挖掘的数据能保证真实么?
我估计,除了极少数官方数据库,恐怕很少有哪个数据库能躲开这三个问题,于是数据挖掘本身就变成一件极为不靠谱的事情了。
前边提到赌神的那个情节,最后预测赌神的人也被赌神玩了,因为赌神在最后说:“那个摸戒指的动作是我最近500次故意加的。” -
第三个死穴,无法应对变化。
前边提到的几个例子其实都说明了这个问题,赌神可以玩对手做假数据,假如我是谷歌的竞争对手,我就在某区域发起对流感的搜索,照样能造成对方数据异常,甚至制对方于死地。而比起对手来说,自己跟自己的博弈才是最可怕的,你可以通过数据进行预测,但是你不知道预测行为本身会带来什么改变。
上边说的三个死穴,是我对大数据使用者的观察,或许并不准确,但是在我看来这三个死穴却是三个机会,三个行骗的机会:
-
第一个,所谓的因果关系是你自己说的,别人没法去确认,因为数据只有你有。而且一旦数据真的达到海量,别人无法验证其真伪。比如刚才提到的谷歌浏览数据,谁有能力去核实谷歌是不是说谎了?于是当因果关系的依据无法验证真伪,那么这个因果关系也就没法验证了。这一点江湖骗子都会玩,气功大师跟你说你只要接了功你病就好了,他的功就跟大数据一样没法核实;神功大师说给你点信息茶,里边的治病信息也没法核实;游方道士说你给他香油钱就能帮你消灾解难,他消没消你上哪核实去?
-
第二个,既然数据可能出现偏差,也就是说结果其实不能保证准确,算准算不准都可以推给外部因素。神功大师会告诉你,因为你心不诚说以病没好;游方道士会说你老婆和你八字不合,所以你的运没转;搞大数据的也可以说因为数据不全,所以算错了。而且比起普通神功大师来,大数据的操作者可以直接告诉你是因为误差,这就不怪他了,因为你也不好确认是他故意瞎编呢,还是真的算错了。
-
第三个,既然对手可以给你造假,或者你自己的行为也可以影响结果,那最后没有得到靠谱的结果,可以把责任推给你的对手或者你自己。比如谷歌可以跟某某公司说是某某网络公司故意调整了他们的一个什么算法导致了问题,就跟天师告诉皇上是因为民间有妖孽故意捣乱是一个办法,就跟神功大师告诉病人是你造孽太多是一个办法,实在不行就说你心不诚。
古今骗术都是一理,无非是虚构事实,然后以利益诱惑,而其中最重要的一招就是通过靠谱的方法给对方制造信心,这个方法可以是天师法咒,可以是神功奇能,也可以是高科技,比如大数据。
而如果大数据没办法解决自己的三个死穴,某些人当然可以号称自己是良心企业,问题是你怎么确保为了利益不会有人越界?有了第一步怎么保证不会有第二步?人类最大的特点,就是懂得通过互相欺骗获得利益。从这一点说,大数据是个很方便的工具,你凭什么保证没有人会用它?于是这个一脸骗子像的高科技,迟早也会发展到神功大师的境地。而最让人担忧的是,比起普通的神功大师妖术邪法,大数据其实最难核实也最难揭破,而搞大数据的人也完全有能力成为人类历史上最难对付的一群神棍了。
网友评论
不知是否符合本文精神?
所学甚少难以驳斥, 参见楼上给的文献吧, 另外建议去学一点基础的统计,概统甚至计量
1. 对不了解的东西进行评论是危险的,有些东西要谈论它需要资格,虽然一下子很难入门,但可以看看有资格的人是怎么说大数据的:
《大数据时代的认知计算》李德毅 中国工程院院士
http://wenku.baidu.com/link?url=kZGiAOeH9OL3MIyp0FoiuSjdFMzkjiFd5lq3hzdD4LeHGI2PMAp4njMWhMkjqAmPfgC3leWwN2Gdqnneop8sEOvor66mhCK-zGZJkj2moIG
2. 大数据的确处于炒作期,建议看看 Gatner的技术炒作周期:
http://www.36kr.com/p/148106.html 这是2012年的,看看bigdata在哪儿吧。
如果你还想再争论大数据是不是会被用作骗术,就不要再回复我了,我的答案是会。一百块假人民币还有可能换几十块的真人民币,重点是你懂不懂分辨真假。
关于没有技术基础如何分辨真假的问题,未来大数据普及开来之后,肯定会有多家大数据公司公开自己的分析内容,大家对比着看,思考着看,怎么也能看出个大概其吧。现在的历史研究不也就是这样吗?正史难道就一定是真的?
请别紧张,我并不是太懂大数据,只是探讨一下大数据是不是能用来行骗,目前看还是不排除这个可能吧
最后,大数据本来就是为应对变化而出现,为的是给予用户最好的体验和产品,说白了它是用来做的,而不是用来说的。楼主有功夫喷大数据,倒不如去喷下中医