数据标注行业不负责任猜想

Weibin / 2018-03-18

前几天看了一篇关于“数据标注”行业的文章《“数据折叠”》。其中提到了一个常常被我们忽视的行业——数据标注。而巧的是，今天又看到了一篇关于弱监督学习的综述（原文在这里），作者是南大的机器学习大牛周志华教授。图省事我就直接就着中文翻译下咽，不过为了谨慎还是对文章中比较有趣的部分看了原文。

关于文章提到的弱监督学习我虽然稍有了解，但毕竟不曾深入，所有感概这东西确实是广大学生党和研究人员的福音。不过真正让我感兴趣的还是文章关于人工标注的部分。其中提到了亚马逊关于人工标注数据的一个尝试，联想到前几天才看到的《数据折叠》的文章，真的是好巧啊。其实就目前我的感觉来看，这个行业远远还没到快不行的地步，反而是正如火如荼地发展着。因为需要数据进行分析的行业是如此的多。通过外包等形式，其实无形间促进了学习算法的发展与应用。

虽然周老师的文章提到人工标注成本较为昂贵，但其实对于商业来说，准确率也是很重要的事情。《数据折叠》中提到专门的标注工作会专门有一个审查的过程，这不禁让我想起了工业中的抽样问题。因为我没有接触过这个行业究竟是怎么样的，所以我也不好说这个审查是如何做的，但是借鉴抽样调查，这其实也是一个蛮有趣的应用。

根据抽样的原理，对于一个固定的误差值，越大的数据集的相对样本量其实越小。例如对于一二百万左右的数据，要做到置信度为95%，误差控制在1%时，样本量只需要几千左右。（大致的估算，具体数值肯定还要根据数据来计算）由此可以看出：如果安排得当，人工标注数据也可以做到廉价而准确，从而在商业上具有较高的竞争性。

当然我说这些并不是想否定弱监督学习的重要性，相反我是支持弱监督学习的，在较少人工参与的学习中，或许最后习得的规则更具有广泛的适用性，甚至会发现一些我们人类也没发现的东西，这不正是智能的含义吗。