五十年数据科学

Weibin Qu / 2019-05-28

这是一篇15年的旧文,对于当下来说依然有借鉴价值，所以特地翻译了其摘要部分。

50年前，John Tukey 曾呼吁一场学术统计变革。在《数据分析的未来》一文中，他指出有一个尚未被人意识到的学科存在，这个学科主要研究从数据中学习或者说“数据分析”的相关问题。十到二十年前，John Chambers， Bill Cleveland 和 Leo Breiman 相互独立地一再呼吁学术统计界要越过经典统计理论，而去扩宽其边界。 Chambers 表示应更强调数据准备和展现而不是统计模型。 Breiman 认为应强调预测而不是推断。为了更容易记住，Cleveland 甚至建议为他设想的学科起名为“数据科学”。

最近一再出现的现象是主流大学纷纷开展数据科学课程，包括加州大学伯克利分校、纽约大学、以及密西根州立大学。其中密西根州立大学于2015年九月八号宣布了一项数据科学计划。拟投入一亿美元，雇佣35名新教员。尽管这些新教授所教授的新课程主题与传统统计课程多有重叠，但新计划还是没有与学术统计部门紧密合作。

本文回顾了当前“数据科学时代”的几个组成部分，包括最近大众媒体对于数据科学的讨论以及如何或是否要将数据科学从统计中区分出来。

现在所设想的数据科学领域相当于是一个超集，由数据科学以及机器学习组成，加入了一些针对“扩充”成“大数据”的技术。这种超集的形成是基于商业目的而不是智能化发展的需要。这样的选择或许会错过接下来五十年真正重要的智能化事件。

不久以后，所有科学本身都会变成数据，被人挖掘研究。数据科学中这即将到来的变革不仅仅只是想扩大其领域，而是代表科学研究范围中数据科学的出现。在未来，我们会看到，一项能改变数据分析工作流的提案将如何影响所有学科中数据分析的有效性，甚至可以预测对每个领域的影响。

在Tukey，Cleveland 和 Breiman 的工作之上，根据那些从数据中学习的人们的行动，我提出了对数据科学的展望；并描述了一个新学术领域，它致力于将数据作为研究的基础从而改进研究方法。相比于今天的数据科学计划，这一新领域是统计学与机器学习在学术上更好的扩展，尽管两者都能适应相同的短期目标。