大数据人才流失: 科研为何陷入困境

jopen 10年前

大数据人才流失: 科研为何陷入困境

无论无处不在的“大数据”概念引起怎样的联想,逐步增长的数据规模确是改变着我们和世界的交互方式。这在工业界、政界、媒体、学术界,几乎任何领域,都是事实。逐渐增强的对大数据进行收集、处理、抽象化,并从中得到启发的能力,拓宽了我们的知识面。

然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的。总结来说就是:称职的科学研究者需要的能力,和称职的工业界从业人员需要的能 力,越来越无法区分。具有典型惰性的学术界刚刚开始适应这一转变,而其他领域早已开始大规模鼓励和奖励这种能力。不幸的是,这导致了很多有才的准研究者难 以在学术界立足,只能投入财大气粗的工业界的怀抱。

数据的神奇效果

20世纪60年代,物理学家Eugene Wigner发表了他的著作:数学在自然科学界的神奇效果。它论述了抽象的数学概念在上下文中的有效性,远远超过产生这些概念的上下文,其差距到了惊人的 地步。毕竟,谁能想到Riiemannn在20世纪研究的非欧集合会是爱因斯坦重新思考万有引力的基础?谁又能想到,抽象固体的旋转群的编纂几乎最终导致 了物理学家成功地预测希格斯玻色子的存在?

谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以“数据的神奇效果”为题发表的文章响应了这一观点。文章展现其惊人的洞察力:只要有足够的数据,数学模型的斟酌选择不再重要 —尤其是对他们所研究的自动语言翻译来说,“比起很少的数据及其精确模型,简单模型和大量的数据更有胜算”。

如果我们大胆假设这个观点可以延伸(至少是部分延伸)至自然语言处理之外,那么仅仅是数据挖掘这一项技能都会逐步打败领域知识。我相信这一预言已被证实:众多学术领域,有效地处理数据的能力正在取代其他更经典的研究模式。

我并不是说对某一领域的精通已经完全过时。如果不理解粒子相互作用理论,大型强子对撞机(LHC)产生的10Gb每秒的速度将一无用处,就像只有理 解物理过程驱动空间爆炸的理论,大型天文望远镜(LSST)产生的每晚15TB的原图像数据才能帮助我们理解宇宙学。然而,LHC和LSST反映了越来越 普遍的现象:科学研究结果完全依赖对大量数据的精确分析。实际上,我们发现,即使数据量并不足够“大”,能够对它们处理、抽象、挖掘和从数据中学习的研究 者也在逐步促进科学进步。

新型科学家

从某种意义来说,数据驱动的研究是过去的研究趋势的简单延续。自16-17世纪科研分离出亚里士多德哲学,科学进步已基本依赖试验和观察。要知道, 是第谷16世纪开创性的对天空的研究,促动了17世纪开普勒的行星运动规律的研究,继而为牛顿的万有引力定律铺平道路,最终形成爱因斯坦的广义相对论。科 学家始终在努力处理数据,区别只在于这一努力如今正成为科学研究过程的核心。

不过,科学研究逐步以数据为中心已经产生了解决问题的新办法:进入LHC、LSST时代,善于运用高性能并行数据统计算法探索大量的群体性数据集的 研究者,以及新的统计方法、机器学习算法、高速代码,以前所未有的规模重复进行典型分析的应用,推动了振奋人心的研究。简而言之,新型科学家一定是精通统 计、计算、构建算法、软件设计、领域技能(可能作事后使用)的多栖专家。在粒子物理学、生物学、化学、神经科学、海洋科学、 大气物理学等几乎所有领域,研究越来越趋向于数据驱动,同时数据收集的速度丝毫没有放缓的迹象。

科学软件的基础作用

科学软件的共同点,是这些工作都离不开编写代码。高质量的、组织良好的公共代码才能对科学过程极为重要的重现产生影响。诸多公共软件都是关于当前的非再生性科学危机、新的出版形式的需要、新的研究、代码和数据公开访问。此处不再详谈更多。

此处我想详细讨论的是,优化的专业软件对大型数据集分析和抽象的核心作用,以及它成为现代科学研究的核心的演绎过程。我的合作者Gael Varoquauz以及他的同事最近发表评论证实了这一观点(见Gael的简介),并就公共的,组织良好的健壮的科学代码对于现代科学研究的重现性和研究 本身的进步都必不可少这一论点进行了实例研究。过去的研究结果,如果只是在论文中简单提及,而产生这结果的实际过程的代码未经组织,这样的结果就不能作为 新的研究的基础。就像是Buckheit和Donoho曾说的:

学术期刊上的计算科学的文章并不是学术,他们只是学术的幌子。真正的学术是完整的软件开发环境,以及计算出数字的完整指令集。

公开代码看起来像是马后炮,但是一般来讲,仅仅发布代码是不够的。像Brandon Rhodes在Rupy 2013 Talk中说的那样,“一个程序运行正常,总好过它勉强能正常运行”。让代码对在科学研究之外的作者有用需要相当大的投入。这种项目具有难以估计的价值, 就像NumPy项目,Scikit-learn项目,等等。它们为研究者提供一个框架,在此框架下,代码可以共享,在github上共同审阅和发布,以此 造福研究社区。

学术界的断层

这是学术界的弊病:尽管有层次的高质量软件正成为现在的科学研究模式的核心,并且这些实践将有助于学术研究的成功,学术界却非常成功的阻止了这一实 践。“发表或者毁灭”的模式中,论文制约着大多数研究型高校,相当于学术奖励框架的货币,而花费在构建和编写软件工具上的时间统统不算是写论文的时间。这 就导致,除非是某种特殊情况,专注于可复用的开放软件的人很难在学术界获得晋升的机会。这些可怜的人们,期待着在科学软件的发展而不是研究论文中获得成 就,往往会发现他们已置身于学术群体的边缘。

某种程度上,这种断层一直存在。学术界总奖励某些技能,而损害其他技能:教学就是一个长期被边缘化的技能。然而这其中的两个主要的区别使得学术界的断层更加令人担忧:

  1. 前面提到的构建和编写软件工具的技能,正滑向学术奖励框架边缘,而它恰恰是现代的研究能否成功的关键

  2. 几乎全世界都在使用密集数据挖掘工具的同时,学术界忽略的不以为然的技术正是工业界最看重最鼓励的

这场风暴导致技术纯熟的研究者渐渐滑离研究而偏向工业界。学术界尽管也存在专注于软件的工作,但那些工作基本薪水很低,没有地位,也没有晋升及机 会。与之相比,工业界吸引力超高:它致力于解决有趣的紧迫的问题,提供优越的薪水和福利,帮助博士后从工作站之间的迁徙中解脱出来,甚至鼓励基础课题的研 究和发表。这种情况下还能留在学术界简直是奇迹。

我所研究的天文学和天体物理领域尤其让人担心。LSST项目正在筹备这一个十年底的第一个目标:十年内能够实时处理每晚30TB的数据,这一目标极 其激进。要处理这样大量的数据,未来几年,这个项目可能要招募数十名以数据为中心的天文学研究者。考虑到所需技术和当前的薪酬水平,以及学术界面向工程的 工作的发展前景,我很怀疑它能够吸引到足够的应聘者。

学术界该如何适应

不止我一人在考虑这些问题。我和国内外很多人们讨论过文中提到的一些话题,了解到有些制定政策的人们和资助机构也正在思考这些严峻的问题。但是更现 实的问题是怎样解决这些问题,阻止它恶化。抱怨学术界的文化是学者们的常事,Deidre McCloskey的“学术威望法则”印证了本文的一些观点:越是实用的领域,越没有地位。这话原是在哀叹基本的论文像是新手的作品从而地位低下,却很适 用于现在的主题。

我认为威望才是关键:学术界采取审慎的措施追赶工业界的脚步,对于数据驱动的研究必不可少的软件,给予其开发者更多的声望,才是解决这些问题的办法。研究者,资助机构和制定政策的人们也可以采取行动来促进这一过程。以下是一些建议:

  1. 学术刊物持续强调可重现的重要性。可重现性是科研过程本身必不可少的要素,而它依赖于开源的高质量代码。将这些代码视作论文发表的重要组成部分,能够提高软件开发者在学术团体的地位。

  2. 推动建立终身制教授评价的新标准。新的标准同时考量公共软件的开发和维护以及传统的论文发表和教学,这样投入到编写整洁的公共代码的时间就不会再被遏制。

  3. 创建并资助新的学术就业体制,帮助博士毕业生、博士后研究员、研究员和终身教授的就业。就业职位应特别看重和奖励公共的,跨学科的科研软件的开发,从而为愿意构建和维护通用的基础软件的研究者提供可行的学术职业发展道路。

  4. 提高博士后科研职位的薪酬。这个建议可能存在争议,但现在的薪酬水平根本无法保持下去。NIH职位为应届毕业的博士后提供的基本工资是每年四万刀 以下。博士后工作七年涨到每年五万刀。若精通构建和维护软件工具的应届博士后就职于工业界,薪水会多出好几倍,并且工业界尊重他们的计算能力,他们也可以 运用这些能力研究自己感兴趣的问题。我很担心,学术界不及时作出这些调整的话,未来几年的科学研究将遭遇严重的障碍。

我们生活在一个振奋人心的时代,加速增长的收集、存储、处理和学习海量数据的能力,使得我们对世界的科学认识的宽度和广度都在增加。要保持这探索新 事物的节奏,我们需要激励研究人员安于研究团体。这不是轻而易举能解决的问题,但是努力才能保证科研在未来可以健康和可持续的发展。

我衷心的感谢众多参与讨论和推动这些想法的同事,尤其是Bill Howe以及Fernando Perez。同时也感谢我的好朋友Will Mari(@willthewordguy)的审阅和反馈。

原文链接: Michael Shallop   翻译: 伯乐在线 - Victoria
译文链接: http://blog.jobbole.com/67426/