文人眼里大数据一副骗子相

作者: 逍遥 | 来源:发表于2014-04-27 13:09 被阅读557次

按照旧时老先生的说法,如今大数据算是“显学”,尤其是做跟网络有关的东西,比如新媒体,如果要不在话里话外叨咕两句“大数据”、“长尾”什么的,都不好意思跟人打招呼了。
  因为工作的原因,我算是接触了一些所谓的“大数据作品”,然而看了半天,我这个搞文字工作的人,却觉得这东西跟我以前做记者时经常打交道的一类人挺像——骗子!

根据百度百科,大数据是这么个玩意儿:

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

泥垢了吧!这中英文夹杂在一起,真因为自己高大上啊,欺负学文科的算账不灵是么?其实这种东西在上世纪80年代就有了好吧!那时候你们这帮张口闭口大数据的小破孩还没生出来呢!当时是这么表述的:

在近500場的撲克牌梭哈賭局中,只要賭神想「偷雞」(bluff)時必定會先摸摸手上的戒指。

对了,这就是1989上映的周润发神作《赌神》,估计很多人都看过各种续集。其实你们想想,如果把赌博当成一种经营行为,用500场赌局来统计一个人赌牌的习惯动作,算不算是撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯呢?而且从当时的科技手段来说,500场赌局绝对算得上是那个时代的海量数据了。所以这东西我第一眼就觉得似曾相识,原来是小时候电影的桥段就有啊。

凡事只要脱掉了新鲜的外衣,露出本质来,就容易识别了。先甭说什么4V了,说穿了这个东西就是靠收集常人无法收集的数据来预测未来。虽然说科学发展到极致便与魔法无异,但是任何预测未来的行为,向来都有其不可克服的弱点。而在我一个文科生看来,大数据预测未来指导行动,至少有三个死穴

  • 第一个死穴,就是逻辑上因果关系并不严密。
      以前我听过一个笑话,说有人拿青蛙做实验,每次切掉青蛙一条腿,就拍一下巴掌,直到把青蛙的四条腿都切掉,然后青蛙终于对声音没有反应了,于是说明青蛙的听觉器官是长在左后腿上的。
      如果按照大数据的理论,这个故事只要扩展到海量(比如所有青蛙),就可以证实青蛙的听觉器官确实长在后腿了。但是我这个人就是这么固执,你就算把所有青蛙都宰了,我也不会相信青蛙靠后腿听声音。说穿了你这个因果关系就是不靠谱的。
      而大数据第一个薄弱项就是,用所谓数据来表达的因果关系是难以确认的,你很难确认两组数据之前的因果关系就一定是像你猜测的那样。同时,由于这个因果关系还受到其他数据的影响,所以你也不知道当其他外部因素变化之后,这个因果关系是否还成立。尤其很多大数据的因果关系是采用了先计算结果,然后推测原因的方式。
      现成的例子就是谷歌有一个流感趋势,2008年的时候用来预测流感显得特别精准,但是到了2013年这招却不灵了。于是专家说什么要换个算法啦,要精确数据啦,其实所谓的“搜索的人多所以感冒的人多”这种因果关系不就是有了数据之后扣上去的么?你根本无法确定吧。

  • 第二个死穴,数据挖掘可能出现偏差。
      大概在几年前,网上曾经有一个调查,说中国人每个人有六个性伙伴!六个哎!您还真是不怕把中国人累着,反正我是结结实实地拖了一把后腿。
      按照调查发布方的说法,他们也是攒了海量网民的数据,才得出这个牛逼的结论的。但是这个结论明显不靠谱吧。后来有人分析,首先这只是网民的说法,而当时中国的网民不过数千万,其中又以学生和有闲阶层居多,本来就不代表国民。
      其次就是会参加这个性伙伴调查的人,大部分都是很开放的人,所以在这个人群里性伙伴的比例可能偏高。
      最后一点,就是中国男人爱吹牛!巴不得说自己有三宫六院才有面子。
      所以结论就是这个数据挖掘是不准确的。
      其实每一次数据挖掘都存在这三个问题:数据挖掘对象就是全体对象么?数据挖掘的筛选是否影响结论?你挖掘的数据能保证真实么?
      我估计,除了极少数官方数据库,恐怕很少有哪个数据库能躲开这三个问题,于是数据挖掘本身就变成一件极为不靠谱的事情了。
      前边提到赌神的那个情节,最后预测赌神的人也被赌神玩了,因为赌神在最后说:“那个摸戒指的动作是我最近500次故意加的。”

  • 第三个死穴,无法应对变化。
      前边提到的几个例子其实都说明了这个问题,赌神可以玩对手做假数据,假如我是谷歌的竞争对手,我就在某区域发起对流感的搜索,照样能造成对方数据异常,甚至制对方于死地。而比起对手来说,自己跟自己的博弈才是最可怕的,你可以通过数据进行预测,但是你不知道预测行为本身会带来什么改变。

上边说的三个死穴,是我对大数据使用者的观察,或许并不准确,但是在我看来这三个死穴却是三个机会,三个行骗的机会:

  • 第一个,所谓的因果关系是你自己说的,别人没法去确认,因为数据只有你有。而且一旦数据真的达到海量,别人无法验证其真伪。比如刚才提到的谷歌浏览数据,谁有能力去核实谷歌是不是说谎了?于是当因果关系的依据无法验证真伪,那么这个因果关系也就没法验证了。这一点江湖骗子都会玩,气功大师跟你说你只要接了功你病就好了,他的功就跟大数据一样没法核实;神功大师说给你点信息茶,里边的治病信息也没法核实;游方道士说你给他香油钱就能帮你消灾解难,他消没消你上哪核实去?

  • 第二个,既然数据可能出现偏差,也就是说结果其实不能保证准确,算准算不准都可以推给外部因素。神功大师会告诉你,因为你心不诚说以病没好;游方道士会说你老婆和你八字不合,所以你的运没转;搞大数据的也可以说因为数据不全,所以算错了。而且比起普通神功大师来,大数据的操作者可以直接告诉你是因为误差,这就不怪他了,因为你也不好确认是他故意瞎编呢,还是真的算错了。

  • 第三个,既然对手可以给你造假,或者你自己的行为也可以影响结果,那最后没有得到靠谱的结果,可以把责任推给你的对手或者你自己。比如谷歌可以跟某某公司说是某某网络公司故意调整了他们的一个什么算法导致了问题,就跟天师告诉皇上是因为民间有妖孽故意捣乱是一个办法,就跟神功大师告诉病人是你造孽太多是一个办法,实在不行就说你心不诚。

古今骗术都是一理,无非是虚构事实,然后以利益诱惑,而其中最重要的一招就是通过靠谱的方法给对方制造信心,这个方法可以是天师法咒,可以是神功奇能,也可以是高科技,比如大数据。
  而如果大数据没办法解决自己的三个死穴,某些人当然可以号称自己是良心企业,问题是你怎么确保为了利益不会有人越界?有了第一步怎么保证不会有第二步?人类最大的特点,就是懂得通过互相欺骗获得利益。从这一点说,大数据是个很方便的工具,你凭什么保证没有人会用它?于是这个一脸骗子像的高科技,迟早也会发展到神功大师的境地。而最让人担忧的是,比起普通的神功大师妖术邪法,大数据其实最难核实也最难揭破,而搞大数据的人也完全有能力成为人类历史上最难对付的一群神棍了。

相关文章

  • 文人眼里大数据一副骗子相

    按照旧时老先生的说法,如今大数据算是“显学”,尤其是做跟网络有关的东西,比如新媒体,如果要不在话里话外叨咕两句“大...

  • 文人?骗子?

    现在很多景区都有“为你提诗”的活动。某某大师难得来此,免费为你作藏头诗一首。之后问你收取工本费。 这样的营销,是现...

  • 何止于米,相期以茶

    秦老师推送了一条信息:“何止于米,相期以茶”,是冯友兰先生赠金岳霖先生的一副对联,文人相和,重继绝学,著作等身,愿...

  • 文人相谑

    晏殊以文章知名于当世,他少年时以神童召试,赐进士出身。他豪迈洒脱,交游广泛,有很多名士经常出入其门庭。 他卸任枢密...

  • 文人为何会相轻?

    文人相轻,出自三国•魏•曹丕《典论•论文》:“文人相轻,自古而然”,意指文人之间互相看不起。 文人为何会相轻?因为...

  • 我不信什么“文人相轻”

    文人相轻,成语,出自三国·魏·曹丕《典论·论文》:“文人相轻,自古而然”。文人,指有文德的人;相轻,指互相轻视﹑鄙...

  • 文人相轻

    "文人相轻,自古而然"我不是文人,自然闹不明白文人为何要相轻? 文人不都是有知识懂道理的人吗,何故要...

  • 无标题文章

    文人相轻

  • 在俗世中自在行走的王维

    王维信奉的禅宗在唐朝文人中很盛行。对的禅宗修行,也使王维成为杜甫眼里的“高人”。王维给世人的总是一副安静祥和的面容...

  • 七絕·二首

    文人相輕·好好 文人自古總相輕,同殿為官尚妒能。 我與他們何所異?別於兩袖有清風。 文人重節·楚嵐 文人自古重名節...

网友评论

  • 73cad7b6693f:典型的文科生思维啊`什么领域都敢插一脚。
  • 李安石:@逍遥 首先,讨论他是否能行骗是可以的,但是你举的三个例子没有一个沾边的。其次,讨论大数据起码要了解一些基本的知识再来讨论,这是基本的态度,比如你可以说扑翼飞行器不容易设计,起码你要知道流体动力学,然后判断雷诺数,然后下结论,不能说因为扑翼飞行器没有喷气式的构造就不可以。你这个文章的套用一下就可以讨论食盐能不能吃,远古人类终于知道吃盐了,不用来喝动物的血来补充盐份了,这时候你发表言论说,我们眼里的食盐是祸害,因为你有了食盐,你就可以让那些没有食盐的人听命于你,不公平,因为你吃了三公斤的肉不会死,吃了三公斤食盐就会死,所以食盐是有毒的。这不完全扯淡么,不了解食盐的人去说食盐是骗子很可笑的,正如同不了解大数据是啥的人去说大数据是骗局一样,非常无厘头。
  • simoncos:@逍遥 关于造假这件事,同意@公子小白 的说法,从技术层面上来说,大数据已经大到无力造假的地步。但是从管理的角度来看,造假并不都需要技术上可实现,最大的漏洞是人。
  • 8SCnBs:按此逻辑,以建筑为例, "三大死穴"可以是:1. 建筑本身与其功能没有必然联系 2. 建筑质量无法保证, 可以偷工减料而无法发现, 或建筑物无法达到设计效果 3. "敌对方"可以在施工过程中或完成后进行破坏活动
    不知是否符合本文精神?
  • 8SCnBs:大数据是区别于数据挖掘的一个概念, 后文想说的无非是数据挖掘乃至统计学的东西;
    所学甚少难以驳斥, 参见楼上给的文献吧, 另外建议去学一点基础的统计,概统甚至计量
  • ioXQNG:你这是先定性再论证啊。。。你说的三个死穴在科学上都有相关的解决方法,建议去看看相关的书和文献再讨论。。。
  • minatoJ:楼主,不好意思,我持反对态度。在我个人的理解你提的3个死穴并不能说明大数据是骗术。1.就是逻辑上因果关系并不严密,大数据确实不能100%推断出准确的结论,但是大数据挖掘会以很高的概率推断,这个就足够了。2.数据挖掘可能出现偏差,数据采集一定要全面合理,这个对于每个专业人士应该没有不知道的吧。3.无法应对变化,大数据强调数据的大和全,小部分的“脏数据”不可能影响整个结果的分析。
  • pockry:两个观点:
    1. 对不了解的东西进行评论是危险的,有些东西要谈论它需要资格,虽然一下子很难入门,但可以看看有资格的人是怎么说大数据的:
    《大数据时代的认知计算》李德毅 中国工程院院士
    http://wenku.baidu.com/link?url=kZGiAOeH9OL3MIyp0FoiuSjdFMzkjiFd5lq3hzdD4LeHGI2PMAp4njMWhMkjqAmPfgC3leWwN2Gdqnneop8sEOvor66mhCK-zGZJkj2moIG

    2. 大数据的确处于炒作期,建议看看 Gatner的技术炒作周期:
    http://www.36kr.com/p/148106.html 这是2012年的,看看bigdata在哪儿吧。
  • NARUTO_86:很不错的文章啊!
  • 逍遥:@公子小白 看来您对议论文结构有点误解吧,要不受累你看一眼标题《文人眼里大数据一副骗子相》,我这个文章从标题到引论本轮结论,核心论点一直都是说的是否可能用来当行骗工具的问题,既然您同意我的核心论点,边边角角细枝末节的事情我也就不跟您掰扯了,谢谢讨论
  • 公子小白:@逍遥 首先我所说的你文章的偏颇,是指你说大数据用来预测未来这个事上,而且这是你这篇文章的核心论点。其次,你的角度是在把大数据定性为一个行骗工具,而我的角度是在给你讲大数据是什么。另外,你所说的数据造假的问题,还是不了解海量数据的海量能够达到什么量级,大数据的分析已经有足够的一部分脱离了人工的程度,即使造假到了一个可以影响真实数据的量级,那它的假数据特征必然会显现出来。一条假数据,在大量数据中不容易分辨,但同时它起到的作用也微乎其微;而大量假数据存在整体数据中,虽然它会影响分析,但这个数量级也足以暴露它是假数据的特征。

    如果你还想再争论大数据是不是会被用作骗术,就不要再回复我了,我的答案是会。一百块假人民币还有可能换几十块的真人民币,重点是你懂不懂分辨真假。

    关于没有技术基础如何分辨真假的问题,未来大数据普及开来之后,肯定会有多家大数据公司公开自己的分析内容,大家对比着看,思考着看,怎么也能看出个大概其吧。现在的历史研究不也就是这样吗?正史难道就一定是真的?
  • 逍遥:@赵澈 万事万物来行骗这个有点绝对,但是大多数骗局都有破绽。我其实更担心的问题是这个东西如果用来作假,要如何找出他的破绽呢?比如谷歌说一个数据结论,楼下那些吐槽的几位有谁能够给我辩个真伪么?我觉得数据一旦达到海量,收集的难度固然高,核实的难度更高,就像有人说的,你手工核对一个数据容易,你核对一万个我瞧瞧,就算你核对出来我也可以说这是因为数据挖掘时出现的问题,除非你的核对数量占到大数据相当大的比例,否则我也可以说那个误差是可以忽略不计的了。如今科学界造假的事情难道没有么?龙芯咋回事?所谓的科学家能用国外芯片打磨成自己的芯片,能把别人的论文拼凑成自己的论文,为什么就不能编造数据呢?我相信一个能搜集海量数据的人,绝对有能力编造海量数据,或者至少把数据修正的很符合自己的要求吧
  • 逍遥:@公子小白 如此说来我说它是骗子相自然也是对的了,说到概率统计学是不是骗人的,想来也不是不能了吧?我只是关注大数据可能成为行骗工具的一部分,如果说我关注到了这一点就算是偏差,那不知道怎么样才算是不偏差。至于你说照着做一遍,如果骗子的数据本身就是编出来的,你按照对方给你的数据重做一遍无非是得出一样的结论。除非你把数据收集重做一遍,但是你做完数据收集怎么能保证在这期间数据没有发生任何变化呢?所以即便得出不一样的结论也可以说是因为数据发生了变化吧?至于你说海量数据就可以让对方望而却步,这也很容易解决,你觉得是挖掘数据难呢?还是编造数据难?如果我知道我要编造的数据是什么特征,难道我不会在挖掘数据的过程中动点手脚采集来的数据更倾向于我所想要的么?难道我就不会在筛选过程中去除某些我不希望看到的数据么?这种事情以前科学界也不是没有吧?难道用电脑就没有办法编造海量数据了么?这样我可以根据我想要的结果而得到所谓的海量数据吧。
  • simoncos:@公子小白 同意万事万物,落到某些人手中,皆可作为行骗的道具...不过我觉得至少作者的一个目的是好的,那就是告诫他人遇到新炒起来的概念时要多留个心眼。
  • 公子小白:@逍遥 万事万物皆可行骗,大数据有何德何能独善其身,就像科学和伪科学。
  • 逍遥:@刀尖上的莲 那我还是很好奇,大数据有没有可能可以用来行骗,又该如何破解?
  • 逍遥:@公子小白 那么你觉得大数据能不能用来行骗呢?
  • 逍遥:@李安石 江湖术士也可以说:1.吾的神功不是为了告诉尔等为什么能治病,治好就牛掰;吾的神功就是为了治医生治不了的病,神主要是说包治百病,不是随便那个大夫都能叫神功;3.吾这神功不是就治你一个,而是普度众生,你觉得不灵说明你心不诚 :stuck_out_tongue_winking_eye: :stuck_out_tongue_winking_eye:
    请别紧张,我并不是太懂大数据,只是探讨一下大数据是不是能用来行骗,目前看还是不排除这个可能吧
  • 刀尖上的莲:你该去阅读相关的基本著作,而不只是看看百度百科的一段话。咨询下专业人士也是可以的。前两个死穴可以通过 统计学 处理;第三个,技术手段处理垃圾信息。
  • 公子小白:楼主果然是个标准的中国文人,看问题只看浪漫色彩。首先你从看大数据的本质就出现了偏差,大数据的使用,不是用来预测未来的,而是用来了解用户需求,从而更好的推出令用户满意的产品。如果按照楼主的观点,不光大数据是骗人的把戏,概率统计学一样也是骗人的。其次,大数据是以海量真是数据进行分析的,这就完全不存在楼主所提到三个死穴,我只是用这些数据来佐证我的想法和假设(当然肯定会有人用这个来忽悠,但那不过是在他自己演示是对数据的删减,整体数据是不会发生变化的,所以别人只需自己重新做一遍,就知道真假了。),数据不是分析人员可控的。而且,海量两个字足以使伪造数据的人望而却步,最简单的例子,你手工输入用户名密码十几次没什么感觉,那么让你输入一万次呢?

    最后,大数据本来就是为应对变化而出现,为的是给予用户最好的体验和产品,说白了它是用来做的,而不是用来说的。楼主有功夫喷大数据,倒不如去喷下中医
  • 李安石:这是一个很有意思的话题,借贵地探讨一下我的一些片面观点,第一,大数据的价值并不是需要确切的因果关系,沃尔玛的纸尿裤和啤酒的案例可以说明这一点,只需要有相关关系就可以实现七商业价值。第二,大数据的出现就是为了避免认知偏差,绝对不是调查部分样本,大数据的大主要意思全体样本的各个因素点上,并不是数据足够多就叫做大数据了。大数据的应用主要其实还是在针对对象的各个因素点上,探讨每一个个体的各个不同特征对最终结果的影响,而不是用于调查意愿这种传统统计这个领域上的。第三,大数据真的不是用于个体预测的,大数据是用于群体预测的较多。
  • 李安石:汗!大数据为啥需要因果关系啊,能出来相关关系就已经有极大的价值了,大数据也没有被研究去搞因果关系吧。。。至于严密不严密,重要么?

本文标题:文人眼里大数据一副骗子相

本文链接:https://www.haomeiwen.com/subject/litrtttx.html