数据标注这份工作,也不是谁都能做的

在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。

image

河南省郏县睿金科技公司总部的工人正在标注数据

据《纽约时报》的报道,在位于中原腹地的河南河北,数据标注正在渐渐成为最新的劳动密集型行业。

有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。

image

当然,狸花猫也是猫

然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。

众包

在人工费用高昂的硅谷,工人的最低时薪约为 13 美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。

其中最有名的在线众包平台就是亚马逊旗下的 Amazon Mechanical Turk 了。

在 Mechanical Turk 上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。为了搞清楚 Mechanical Turk 到底是怎么工作的,硅星人也注册了一个账号。

在 Mechanical Turk 的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。

每个任务中包含若干个被称为 HIT(人类智能任务,Human Intelligence Task)的小任务,标注员每完成一个小任务可以获得相应的报酬。

其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得 1 美分(约 7 分人民币)报酬。

image

而最贵的一个,是找一位中文母语者按要求录 150 句中文,可以获得 6 美元。

image

除了这些简单易懂,点一下鼠标就能完成的任务,在 Mechanical Turk 上还有更多高要求的标注工作。

比如,有一个任务要求标注者看 10 秒钟视频,并用一句话描述视频里的内容。在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。

而实现这么一个高要求的任务,发布者只需要付出 0.3 美元赏金。

image

建议家长拿这个玩意儿训练小朋友写英语短句

尽管任务复杂报酬低廉,Mechanical Turk 上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。

截至2011年1月,Mechanical Turk 上的注册工人数量已经达到了 50 万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。

此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。

image

比如这种标出路牌的验证码

而其实, Mechanical Turk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。

1769 年,初代 Mechanical Turk 的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。然而直到 1857 年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。

image

而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?

和专业人士合作

众包模式固然有种种优点,但它的缺点也是致命的。

当我向一位 Google 工程师朋友提起 Mechanical Turk 的时候,他表示“我们不敢用 Turk 标注”。

因为众包模式,通过 Mechanical Turk 标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。尤其对于很多专业领域来说,普通人根本无法完成数据标注。

image

比如这种,你能告诉我哪个是有病变的吗?

2017 年,Google AI 公布了一项突破性研究成果:通过机器学习技术,AI 能够从病人的视网膜眼底照片中自动诊断出潜在的病变情况,来提前发现糖尿病性视网膜病变,进行及时的治疗和预防,让患者保住视力。

但想要教会 AI 什么是正常的眼底照片,什么是有潜在病变的眼底,这个过程并不容易。

为了获得高质量的标注图片,真正让 AI 的诊断水平达到执业医师的同等标准,Google 与印度和美国的眼科医生合作,创建了含有 12 万张图像的开发数据集,再由 3 到 7 名眼科医生联合评估图片中的病变。

最终,共计 54 名医生从这些视网膜眼底照片素材中标记出超过 88 万个确诊症状。这些图片和标记全部被用来训练深度卷积神经网络,最终使得 AI 的诊断准确率逼近甚至超越了医生。

在 Google Brain 参与另一个与寿命预测相关的项目的工程师 Steven Zhan 告诉我,他们的数据集标注工作基本无法众包,都是交给医生来完成的。

虽然在未来,AI 很有可能发展到“自己教自己”这一步。但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。

而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。

皮尤研究中心预测,这种零碎的数据标注工作将在未来几年内成为美国经济的重要组成部分。在 2016 年,有大约 5% 的美国人通过 Mechanical Turk 这样的在线标注平台赚钱——这个数量已经超过了优步司机。

在可见的未来里,人类还将继续为人工智能打工。

在中国如此,在美国也一样。

来源:品玩网

未经允许不得转载:博海拾贝 » 数据标注这份工作,也不是谁都能做的