前几天看了一篇关于“数据标注”行业的文章《“数据折叠”》。其中提到了一个常常被我们忽视的行业——数据标注。而巧的是,今天又看到了一篇关于弱监督学习的综述(原文在这里),作者是南大的机器学习大牛周志华教授。图省事我就直接就着中文翻译下咽,不过为了谨慎还是对文章中比较有趣的部分看了原文。
关于文章提到的弱监督学习我虽然稍有了解,但毕竟不曾深入,所有感概这东西确实是广大学生党和研究人员的福音。不过真正让我感兴趣的还是文章关于人工标注的部分。其中提到了亚马逊关于人工标注数据的一个尝试,联想到前几天才看到的《数据折叠》的文章,真的是好巧啊。其实就目前我的感觉来看,这个行业远远还没到快不行的地步,反而是正如火如荼地发展着。因为需要数据进行分析的行业是如此的多。通过外包等形式,其实无形间促进了学习算法的发展与应用。
虽然周老师的文章提到人工标注成本较为昂贵,但其实对于商业来说,准确率也是很重要的事情。《数据折叠》中提到专门的标注工作会专门有一个审查的过程,这不禁让我想起了工业中的抽样问题。因为我没有接触过这个行业究竟是怎么样的,所以我也不好说这个审查是如何做的,但是借鉴抽样调查,这其实也是一个蛮有趣的应用。
根据抽样的原理,对于一个固定的误差值,越大的数据集的相对样本量其实越小。例如对于一二百万左右的数据,要做到置信度为95%,误差控制在1%时,样本量只需要几千左右。(大致的估算,具体数值肯定还要根据数据来计算)由此可以看出:如果安排得当,人工标注数据也可以做到廉价而准确,从而在商业上具有较高的竞争性。
当然我说这些并不是想否定弱监督学习的重要性,相反我是支持弱监督学习的,在较少人工参与的学习中,或许最后习得的规则更具有广泛的适用性,甚至会发现一些我们人类也没发现的东西,这不正是智能的含义吗。