数据工厂里的标记员:我们训练人工智能,直到它取代我们
「人工智能高效工作的背后,有赖于海量的数据学习,而数据标注员则扮演了老师的角色——他们手把手地教 AI 辨别物件、表情和动作,直到有一天被 AI 取代。」
端传媒记者 吴婧 发自北京
在刘宇昆的科幻小说《机器人护工》里,一个美国家庭买了台机器人护工照顾年迈中风的父亲。护工既细腻又强壮,它常常给老人读报纸,也能轻松将行动不便的老人抱起,美中不足的是,它偶尔会出现 bug,比如:陪老人过马路时粗心大意、散步时又会被松鼠和蜂鸟吸引……直到后来,老人发现机器人护工原来是被人工操控的——在美国与墨西哥边境的一间工厂里,操控机器人的墨西哥女孩们蜗居在一排排的小隔间里,像不知疲倦的机器人一样工作。
在北京海淀区一间提供数据服务的工厂里,数据标注员林雪正坐在电脑前,用自己新学到的400多个标签给世界分类,比如:瓶装矿泉水的标签是“水”,装水的马克杯则要标在“家具”门类下。
贴标签的目的,是像教小孩一样教人工智能看图识物。林雪的工作是在一张图上把桌子、板凳、沙发等都用框标出来,再注明它们的名字和类别。她和同事们要标注成千上万张这样的图片,以供人工智能学习。而在见识了海量外形、材质各异的桌子后,人工智能便会“一眼”认出桌子来。
据咨询公司赛迪顾问预测,2018年,中国人工智能市场规模将超过406亿元人民币。勃兴的市场牵引着年轻的廉价劳动力蜂拥而入。据科技智库“甲子光年”报导,中国目前有10万全职、近百万兼职的数据标注员。他们和小说中的机器人护工一样,用密集、艰辛的劳动辅助人工智能一步步接近无人之境。他们是光鲜科技投射在地上的阴影,终有一天,他们服务的力量将对他们取而代之。
“你们打磨的每一个数据都会为人工智能做出巨大贡献”
电脑屏幕上是一张男性驾驶员的脸,他的额头中心、瞳孔中心、眼角、鼻翼和嘴角等处分布着共29个点——它们被称为“人脸关键点”。
林雪把脑袋凑近屏幕,将驾驶员的双眼放大数倍,细细检查关键点是否准确落在眼睑的边沿。这是从一段夜晚行车视频中一帧帧截下来的图片,像素比90年代录像厅放映的香港武打片还低。驾驶员正看向左侧窗外,黑框眼镜挡住了他部分眼睛。林雪叹了口气:“天啊,这个眼镜愁死我了。”
人脸关键点是人类识别的重要步骤之一。人工智能并非天生就能识别人的眼耳口鼻,它需要通过大量学习人脸关键点,来建立对五官轮廓的认知。在建立认知基础后,人工智能便可通过这些点构成的轮廓特征,算出上下眼睑的距离,以此判断人眼的睁闭状态,并进一步检测驾驶员是否在疲劳驾驶。
当你通过“刷脸”自动解锁手机;当你点开美颜 App、两抹嫣红不偏不倚地落在你的两腮上;当你出入海关,通关检测设备从上到下扫描你的面部时,都在使用人脸关键点的相关技术。
而这些关键点,都是由林雪这样的数据标注员标注的。在数据服务公司 BasicFinder 倍赛数据,300来个标注员正坐在电脑前,用细密、起伏的鼠标点击声制造出成千上万个关键点。
林雪今年21岁,毕业于山东省德州信息工程学校电脑专业。这所公办中专有着务实的风格——读书期间,学校就曾安排学生们实习做文字录入,林雪一分钟能打100多个字。
2015年,林雪进入 BasicFinder 实习。一开始做录入工作,把外国人手写的素材一个字母一个字母敲入电脑里,“我不认识它,不知道它念什么,但我能给它打出来。”
在录入岗位工作数月后,她转去做数据标注。第一个任务是给图中的人标骨骼点:头顶、脖子、肘部、手腕、膝盖……一共15个。通过学习这些点,AI 便能预测人的下一个动作,帮助无人超市监控购物者的抓取行为,亦可运用在安防领域。
“一开始吃了不少亏。”林雪回忆道。骨骼点要切合身线,稍有偏离就算错。甲方要求98%的准确率,每个图包100张图,只要错误超过两张,整包数据就会被驳回,重新检查。
“这一行找人很难,做标注要有足够的耐心和责任心,偷奸耍滑会影响整个数据集的质量。”杜霖今年31岁,是 BasicFinder 的 CEO,这间公司有一个工程师团队负责研发和管理各类数据标注的工具模板。除了北京总部,他们还在河北、河南、山东、山西等地投资建设了数家专门做数据标注的工厂,标注员总数接近2000人。
事实上,数据标注员的淘汰率相当高。据杜霖介绍,做图片标注的员工,淘汰率在20%到30%之间,做语音标注的淘汰率甚至接近七成。“中国的人口红利在慢慢消失,而且现在的95后比较有思想,很难管理。”
入行三年,林雪不知道和多少同事告过别。但她坚持了下来,这份工作让林雪在家乡的小伙伴面前很是抬得起头——他们大多没有稳定、正规的工作,更别提在北京上班了。放假回家,林雪在母亲的身上比划15个骨骼点,她并不清楚标这些点要用来做什么,母亲问她,她说应该是关于人体的。
林雪的家乡在河北省吴桥县,那是一座以杂技闻名的县城。林雪的父亲是一名装修工人,也在北京工作,母亲因身体不好,留在家中照顾林雪的弟弟和妹妹。标注员的工资是每个月4000到5000元,林雪会把一半的工资寄回家,“我是老大嘛,要供妹妹读书。”
她记不得自己标注了多少图,倒是记得一张阅兵的照片:几个长官站在最前面,四周都是人,一排一排的,密密麻麻——每个人都要标15个点。“做那个项目的时候心情还是挺压抑的。”
疲倦是标注员的大敌。“说到底,我们现在做的事情就是客户最终想要电脑做的事。”杜霖说。BasicFinder 会监控标注员的疲劳度,把相同的任务间隔一定时间指派给一个人,如果后一次的结果和前次相差较大,系统即会检测出来,并提醒标注员:“你已经累了”,可以换别的任务来做或干脆休息一下。
杜霖常用特斯拉(Tesla)的自动驾驶事故给员工“打鸡血”。2016年5月7日,一辆自动驾驶模式下的特斯拉与垂直方向开来的一辆白色拖挂卡车相撞,导致特斯拉车主当场死亡。这是美国首例涉及汽车自动驾驶功能的交通死亡事故。事后特斯拉公司发表声明称:白色卡车在蓝天背景下识别不出来,以特斯拉自动辅助驾驶系统的视角看,卡车侧面是悬浮在地面上的,因此没有启动刹车。
“我一直跟他们说:‘你们打磨的每一个数据都会为人工智能做出巨大贡献,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为你当年把它标出来了。’”
这些话深深地激励了林雪。“标车的时候,如果标错了,我就会担心给它以后造成不好的影响。如果被返工,我会想‘还好返工了,要不这些数据被使用了就坏了。’”
一个深圳的客户曾在朋友圈分享了无人驾驶公交车的视频:司机坐在驾驶座上,双手背在身后,方向盘会在遇到车辆或转弯时自己转动。林雪不记得把那段视频翻来覆去看了多少遍,“好酷啊,那里面肯定有我们做的数据,有我们一份功劳,我就觉得很骄傲。”
那种感觉,就像是一不小心踩上了时代的浪潮。
数据标注:AI 的原动力
3月5日,中国国务院总理李克强在政府工作报告中指出,要加强新一代人工智能的研发应用。这是继2017年后,“人工智能”第二次被写入政府报告。
“AI 是中国第一个真正有机会制定游戏规则的技术领域。”牛津大学人类未来研究所的Jeffery Ding在报告《解码中国AI梦》中指出。报告从硬件、数据、算法和产业四方面衡量一个国家AI的综合实力,其中,数据是中国唯一领先美国的方面,占据全球数据总量的20%。
由于宽松的隐私保护政策,中国企业和政府收集到海量数据。仅以监控视频为例,中国目前有超过2000万个监控摄像头,每个摄像头每天产生数GB的数据量。
尽管有声音认为,数据的重要性将随着 AI 的发展而降低,仍有相当多人相信数据是 AI 发展的原动力。拥趸们最常举的例子是:Google 的研究人员用3亿张图做了深度学习实验,结论是数据量(指被标注过的数据)越大、学习效果越好。
“有监督的学习在未来5到10年仍会占据主流,AI 行业对数据标注的需求一定会井喷式上升。”杜霖说,“对中国的 AI 公司来说,数据正在变成痛点。”
这一方面是因为,数据标注需要大量劳动力的投入,且工作内容相对枯燥、重复。数据标注的主要内容是分类、拉框(用框选定需要电脑辨识的物体,比如人脸、汽车等)、标注关键点。在BasicFinder,一个标注员平均每小时要画300到400个框。
“说白了,数据标注类似于一个工厂的流水线。”24岁的张索普曾在京东的数据标注团队工作。出于数据安全考虑,一些大企业会内部消化数据标注工作。这被不少高学历的员工视为“杀鸡用牛刀”,且无形中增加了企业的用人成本。“老员工的积极性不是那么高。”张索普说,京东会不定期为做数据标注的员工换岗。
也有公司在内部搭建专门的标注团队。但是,“模型的训练和数据需求是周期性的,任务不持续,今天有活、明天没活,人员容易流失,管理成本很高。”杜霖说。
除此之外,由于各公司都将自家数据视为机密,造成“教学材料”无法流通,也在一定程度促成数据标注行业的繁荣。
“数据没有打通,因为大家都花了太多钱在数据上。”杜霖以自动驾驶领域的数据标注为例,“我用 A 公司的数据模型放到 B 公司的设备上跑不通,甚至摄像头换了一个角度、位置或分辨率,都跑不通。”
在这样的背景下,大大小小的数据标注公司像稻穗上的谷粒,蜂拥着、迫不及待地跳入水里,并很快将市场煮成了糊锅的粥。
AI 很光明,我们很迷茫
4月,何元飞的数据标注团队停工了整整十天,蚀了三万元。
他今年28岁,来自河南省漯河市。去年底,何元飞将手中的物流生意转给别人,投身到火热的 AI 浪潮。他花两万元租了一年的办公室,购置了37台电脑,又从当地招了30多个员工。何元飞觉得自己给了他们一份体面的工作——这些20来岁的中专生,之前都在从事类似传销的网络销售工作,而现在,他们在办公室里使用电脑,一个月最多能拿到3500元。
好景不长。“春节过后突然出现很多新团队,公司压价特别狠。”何元飞去年给自动驾驶公司 Momenta 做拉框,一个普通框的价格是7、8分钱,到今年四月,价格已跌至3.9分钱;有的活计甚至低至4、5厘一个框。可即使这样,还找不到活做。
数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司(比如BasicFinder),再由中游众包给下游的小公司、小作坊(比如何元飞的团队),有的小作坊还会进一步众包给“散兵游勇”:比如学生或家庭主妇。一些任务经过数手转包,酬劳已低得惊人。
“AI 是很光明的,但我们这些小工作室很迷茫,听说很多公司都不干了。”何元飞说。
科技巨头间数据未打通的后果也在这些小作坊肩上倾倒了沉重的负担。“每个公司的标注软件都不一样,都要重新培训工人。”与此同时,小作坊的专业度也逐渐显露疲态。何元飞不久前接到一个百度无人驾驶车的数据标注工作,光是新规则培训就用了一周时间,即使这样,返工率依旧很高。“百度太严格了,100张图有近2000个框,不能超过5个错。”
“这个产业没有往良性的方向去发展,大家一哄而上,相互PK价格,最终的结果是两方受损。”杜霖说。下游赚不到钱,做出的标注数据质量也差。
尽管目前的情况不乐观,杜霖依旧相信,数据标注行业最终会大浪淘沙,而他们,是走到最后的那一批。
“最后一批被 AI 取代的人”
令杜霖和其他从业者们感到充满希望的是,下游市场陷入混战的同时,上游的 AI 市场从未停止过膨胀。其中,以人脸识别市场最为兴盛。从美颜相机、直播软件,到公司考勤、学校接送,再到出入边境、对人员和道路的监控,人脸识别正在成为人们进入这个社会的“入口”。
“这块市场,只要AI系统一运转,就能赚钱。”杜霖甚至大胆估计,做数据采集、标注、录入及审核的市场总规模能达到百亿级人民币。
“现在最大的一块市场是审核。你能想到的任何一个有用户的公司都需要一堆人来做这个事情。”不久前,Facebook、今日头条相继投入重金建立专职的内容审核团队,因为人工智能尚无法精确理解语义内涵,需要人来一一识别。
与此同时,数据标注行业亦在迭代,一些门槛更高、学科更细分的领域正露出头角。从京东离职后,张索普加入一家做智能客服和智慧医疗的公司。智慧医疗的工作需要对病理切片等进行标注,以腰椎间盘突出的 CT 片为例,标注员必须准确识别并标注出间盘的轮廓。
这类工作,是林雪这样的标注员无法胜任的,通常需要请医生或医学院的学生来做,成本极高。合作过类似项目的杜霖说,医学院学生的人工成本是普通标注员的20倍。
事实上,随着 AI 技术的发展,早年一些基本的标注工作正被逐渐被淘汰。以自动驾驶模型为例,以前靠人工来识别车、行人,如今则由机器先标出来,然后人再检查标注是否正确。
正如 Facebook 人工智能研究部门负责人 Yann LeCun 在多个场合强调的,AI的核心在于预测,AI的下一个变革是无监督学习、常识学习。也就是说,工程师们正在努力让 AI 不依赖人类训练,自己去观察世界是如何运转的,并学会预测。
但杜霖并没有很强的危机感:“我带领我们的人在做一件最有意义的事,在将每个个体的智慧转化为 AI。我能保证,如果未来 AI 取代人类,他们是最后一批被取代的。”为什么是最后一批?“因为总会有一个新的行业需要引入 AI ,需要(我们)为他们来做数据准备。”
对林雪来说,那都是非常遥远的未来。问她会不会担心自己的工作被取代,她想了想,说:“我会努力、再努力一些。”
如今,林雪已熟练掌握了多种数据标注,并升级为质检员——检查新员工的数据标注质量。她也不再像刚入职时那样每天都感到非常累,“已经习惯了。”每天工作结束,林雪都会和邻桌的小伙伴比拼,谁今天完成的任务多,她还想要学新的标注。
BasicFinder 北京工厂的标注员,大多数都是和林雪一样、二十出头的年轻人。他们身上常常显出超越年龄的稳重和专注,没有人装饰他们的电脑桌,没有贴纸、玩偶甚或一小盆绿植。工作期间,他们都神情严肃,鲜少聊天。
“只有工作结束,走出工厂的那一瞬间,我才感到真正的放松。”林雪说。
在林雪心中,这不是一份毫无意义的工作。有天林雪和父亲走在北京街头,她指着街上的车向父亲解释,自己拉的每一个框都会帮助自动驾驶的汽车在关键时刻及时刹车。
“那还挺厉害的。”父亲答道。
(应受访者要求,张索普为化名)