随着互联网的普及,大数据的研究逐渐发展成为一门显学,数据科学的目的是在数据规模聚集的基础上不断提取出具有研究价值的部分,为人类的生产活动提供必要的信息支撑。
发展至今,数据资源是重要的现代战略资源,其重要程度将越来越凸显,在本世纪有可能超过石油、煤炭、矿产,成为最重要的人类资源之一,而“数据科学家”亦被追捧为最为性感的职业之一。但数据科学最早的应用,却发生在不显眼的农业。
Ronald Arnold Fisher
1919年7月,阴沉的天空已经大半个月未放晴了,在位于英国东部的赫特福德郡的一个农场里,一个年轻人正在泥泞的田埂上来回踱步。在不久的将来,世人便会明白,这个融于梅雨中的乡村农场,将会日后成为赫特福德郡古老的农业研究机构——罗森斯得农业实验站。而现在,29岁的费舍尔才刚刚成为这个实验站的研究员。费舍尔是毕业于剑桥大学的天文学家,并曾做过一段时间的数学讲师。但此后的十四年里,费舍尔都会和田里的泥巴打交道。
罗森斯得农业实验站于1844年得以竣工,是由当地富甲一方的财阀本尼特·劳斯一手筹划。顾名思义,这个实验站是一个农业科研机构。劳斯渴望在化肥领域一展拳脚,因此一直想寻找最有效的化肥配方。与此同时,化学家、植物学家、园艺学家纷纷加入该科研机构。根据不同学科的理论,科学家们设计并进行了大量的实验。经过半个多世纪的积累,实验站积累了不少数据。
拉斐尔 《雅典学院》局部赏析
伴随着数据采集手段的不断完善,数据的问题却越来越突出。很多科研人员都产生了同样的焦虑——数据的采集意义是什么?我们能否从中得出一些结论?众所周知,用于处理数据的统计方法已经诞生了两百多年。早期统计学偏重数据探索,只采用了简单的求和、求平均、求百分比等算术方法。这些方法能发现数据中的一些浅层结论。此外,统计主要用于物理和化学的实验结果分析。这两门学科都有严格的科学定律来说明因果关系,并且实验环境非常可控。因此,测量误差相对微小。科学家可以通过多次重复实验来检验科学定律是否成立。
但农业问题的研究方法与传统实验模型出现了根本上的悖论与冲突。在那个时代,“科学思潮”的理性光辉还尚未完全取代“宗教伦理”的道德审判,因此,“生命科学”这一概念还尚未被提出,就连达尔文提出的“进化论”也被上流的绅士们嗤之以鼻。所以农业并无尚在的科学定律可供参考。即便能写出数学公式,还是没法解决所有问题。物理学家做实验时,会在室内使用简单的小球。但农业研究的对象是复杂的生物,而且这些生物必须存活于开放的室外环境。田里作物长势如何,除了化肥起作用,阳光、灌溉、病虫害、土壤肥力、耕作方式等诸多因素都要掺合。某个季节的一阵风,就可能造成两块田地完全不同的产量。如果用一般的统计方法进行分析,实验站至少要把每种情况的数据都收集一遍。
“杂交水稻之父”袁隆平
与此同时,农业实验的周期非常漫长。化学家一个小时能做好几组实验。可作物的收获,至少需要几个月的时间。如果按照物理化学那样通过大量重复实验来控制误差,那农业研究永远都无法达成。费舍尔经过不断专研,不断变换数据分析的视角,发展出来了一系列统计推断方法,如ANOVA、F分布检验、p值分析。此外,费舍尔还提出用统计推断的思路来设计农业实验,从而降低农业实验成本。他的所有努力最终解决了一系列农业活动中较为根本的问题。
伴随着高新技术成长起来的人们,应该难以想象,20世纪初最重要的科学思想,居然是为了解决一个看似脱离我们实际生活的问题——关于农业生产上的问题。但我们不必对产业厚此薄彼,农业提供着人类生存必须的食物,在技术革命和工业革命之前,农业革命都会先行。在19世纪工业革命之前,英国引领的四轮耕作、育种等农业革命已经悄然进行了将近一百年。
关于费舍尔的农业统计工作的不断完善,一批批专业的种子公司、化肥公司和牲畜育种公司得到了空前的发展,成为最早享受数据红利的产业公司。其中一部分公司建立起强大的数据壁垒,因此成为延续到今天的百年企业。值得注意的是,刺激农业大发展的那套数据方法,要等到二战之后才在工业上推广使用。一方面,这可以归因于产业发展的优先级。在任何时候,食物供应比枪炮子弹都要重要。墨索里尼在推动意大利粮食自给时,就特别倡导农业育种新方法的推广应用。
早在80年代,遥感和地理信息技术就大规模应用于农业。这比地图软件和打车软件领先了四分之一个世纪。率先推广的美国在农产品生产和农产品贸易方面获得信息优势,因此巩固了农业霸主地位。在最新的智能化运动中,农业已经在暗中打磨“智慧农业”。物联网和AI技术已经在不断提高农业效率,自动驾驶等技术也被引入农机。美、日等国已经研发出成熟的自动驾驶农机,中国的科技公司也开始布局这一方向。相对于汽车面临的道路安全挑战,农业反而可能成为自动驾驶技术最先落地的领域。
科学的发展有其自身的局限性,不难发现,关于费舍尔的农业统计方式问世后100年后的今天,大数据的泛滥又为现代人带来了一些希望和某些焦虑。
可以看到,随着信息革命的到来,数据收集难度大为降低。无论是物联网的电子信号,还是社交网络的亲密留言,都可以轻松地采集、传输和存储。但大数据也带给人一种错局,认为数据科学可以依靠全方位的数据来“暴力破解”一切问题,与此同时“大爆炸”的信息世界,也在轰炸着现代都市人的脆弱神经。追溯历史可以发现,无论是自然的生态系统,还是人类构成的社会环境都极为复杂,在复杂问题面前,你没有筹划、选择自身道路的能力,那意味着你只能被数据淹没。
信息大爆炸带来的光怪陆离的世界
也许,数据科学在农业的应用历史传统,有可能为今天的科学发展带来某些启示。事实上,数据科学的最新研究方向也越来越倾向于从小样本中去推断和建模,让前沿且浮躁的数据科学能在稳定、祥和的伟大事业中找到安身之所。值得一提的是农业对技术的要求相对宽松,并能直接产生经济效益和战略意义。而“智慧农业”概念的诞生,则标志着数据科学与现代生物技术、种植技术等高新技术融合为一体,对建设世界农业水平具有重要意义。显然,泥土中产生的数据哲学,依然充满智慧。
图片来源于网络
网友评论