热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

智能时代的手工劳动者:调教AI、月薪三千

来源|放大灯文|吴云飞编辑|李拓白女士坐在电脑面前,她的全部的工作内容,就是“教”人工智能认图、认字ÿ

来源|放大灯

文|吴云飞

编辑|李拓

白女士坐在电脑面前,她的全部的工作内容,就是“教”人工智能认图、认字,仿佛它是初识这个世界的小孩子。

在她所供职的县城公司,和她一样重复着简单机械工作的同事,近200人,如果将视野放到全国的“人工智能数据标注公司”,已有上百万人从事这个职业:人工智能数据标注师。

他们是智能时代最后的手工业者。


数据标注师的主要工作是——调教AI。

他们的任务一开始比较最简单,比如判断句子意思是否通顺;进阶任务是识别图像、验证码。其中识别图像包括做人脸标识,这要求他们在各种角度、遮挡、清晰度的条件下,标注出五官、脸型的轮廓与位置,每张脸上要标出100多个识别点。

人脸识别示意丨arXiv:1706.01789

如此调教AI的本质,是对图像数据做结构化处理。

一颗苹果在不同光照、遮挡的环境下,人只要看一眼都能准确识别。虽然人类脑部处理其信号的原理在学界仍有争议;但计算机看见苹果,只能接收到一张由不同像素点组成的网络,而无法从整体进行识别;并且晴天下的苹果和雨天下的同一颗苹果,将为计算机输出不同的像素点阵。

因此只有人们将视频、图像、文字、声音等信息进行标注的结构化处理后,才能为计算机所识别。

这种对人工智能系统投放有标注的数据的过程,就是人们常说的“训练”。人工智能的先进程度与其训练的数据规模与准确度密切相关,数据越多、越准确,系统就越智能。

智能驾驶、病例诊断、名片OCR、手势符号、农产品、商品信息、金融服务......高大上的人工智能已经应用到了城市生活的方方面面。科技巨头们围绕人工智能,展开了奋力的竞逐。

分布在全国各地百万“人工智能标注师”们的标注效率,正左右着科技巨头人工智能竞赛的胜负。

01

百万青年做数据

清涧县,黄河边仅20万人口的一座小县城,位于陕西省榆林市。2019 年,阿里巴巴在此与当地政府政府合作开发了名为“Ai 豆”的扶贫项目,根据协议,阿里提会为产业园供订单并且负责培训,而当地政府出场地与设备参与共建。项目招聘会明确倾向社会就业弱势群体,并且要将80%的收入用于薪资发放,并不得进行利润分红[1]。

Ai豆员工的主要工作内容就是为人工智能做标注,是县城里雇佣人数最多的一家企业。除此之外,全国7省8县都设立了Ai豆扶贫合作项目,截至2020年底,共计吸纳近800人就业。

Ai豆项目是个纯粹的扶贫项目。但阿里巴巴相关人士也坦陈,但仅仅靠数百人的“Ai豆”扶贫项目,远远不能保障阿里人工智能的后勤供给。“整个行业的需求量实在太大了。”

事实上,包括阿里在内,每一个拥有大量数据需求的科技巨头均建立了各自的数据标注供应链。其中众包平台是他们获得标注服务的重要方式,例如腾讯搜活帮、百度智能云、京东众智、科大讯飞爱标客等,均是如此。

众包是一种灵活用工模式,参与者无需与平台或数据需求方建立雇佣关系,仅通过网络完成协作,根据完成的任务包获取记件收入。

▲腾讯搜活帮截图

通过众包模式,科技巨头能快速聚集大量闲散、弹性的劳动力,无论是全职或是兼职,只需完成培训便可直接上岗。对企业而言,先完成任务再付费也是非常稳妥的选择,并能外化企业薪资负担。

笔者也试着在腾讯搜活帮平台上体验众包任务。在通过文本识别、搜索相关性、时鲜性、内容判断等多种考试后,就可以抢单对应任务。在通过难度相对较高的文本识别考试后,完成了两套奖励为150元宝的任务,耗时约3分半钟。

每1000元宝可以兑换1元钱,按正常工时计算,每月收入能在1800元左右。随着操作熟练度的提升、高难度题目奖励的提升,完成任务的效率也会随之提高。以目前的任务奖励计算,熟练的标注师有望获得3000元甚至更高的薪水。

▲腾讯搜活帮任务界面

选择众包或者第三方公司提供标注服务可以更灵活,但如果需要高质量或稳定的标注服务,或涉及核心知识产权的内容,自建团队更稳妥。

有媒体报道,在百度山西人工智能数据产业基地,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后。今日头条公司在天津、济南、武汉各地,也招募了4万名数据标注师。

除了大型互联网公司自建与组织众包标注师,市场上还活跃着诸如龙猫、云测、数据堂、爱数智慧、海天瑞声等第三方服务商。

林林总总,全国标注师就业总人数已超过百万。

2020年4月26日,人力资源与社会保障部发文正式宣布,“人工智能训练师”正式成为新职业,并纳入国家职业分类目录。该文同时披露,仅阿里巴巴业务生态内,人工智能训练师从业者已逾20万人;预计到2022年,国内外相关从业人员有望达到500万[4]。

▲人社部发布通知

人社部发布新职业信息,标志着这个群体规模与影响力都在壮大,以至于全面进入了监管视野,相关的职业规范、行业培训体系规划或将接踵而至。

02

最后的手工业者

天空的颜色、路边的风景、交通路况、CT 片显示的病灶……所有视觉、声音或者文字信息,都隐含着这个星球的秘密。若是数据的标注不需要成本,人类应该想让机器感知整个物质的星球。

在机器学习的过程中,参与的数据集被分为训练集、验证集与测试集,机器的任务就是对根据训练集的数据点进行拟合、通过验证集调教预测模型,并测试集进行准确度评估。

像白女士那样手把手教人工智能学习的方式,被称为“有监督”的机器学习。但当人工智能被逐渐养熟后,它自身的识别能力与模型拟合准确度将不断提高,进入人机协作模式。

直至人工智能会在某模型的注准确度与效率完全超过人类,此时它便要离开人工标注,进入无监督机器学习。

理论上说,每一个垂直场景随着技术发展,人工智能都有可能进入无监督学习状态。

今年两会期间上汽集团董事长陈虹的提案显示,一辆自动驾驶测试车辆每天产生的数据类型包括车辆行驶数据、车身数据、操控数据、视频数据、图像数据、坐标数据等数十类,总量最高可达10TB[5]。

2020 年 8 月 15 日,特斯拉创始人马斯克宣布要建立名为“Dojo”的神经网络训练机器项目,用于处理特斯拉汽车驾驶过程中摄像头产生的数据,并鼓励 AI 以及计算机芯片工程师加入该团队[6]。

目前每辆新款特斯拉配置有八颗摄像头,产生的数据量更是远超10TB。

所以标注师这个职业,未来会消失么?

一位不愿透露姓名的自动驾驶公司工程师向笔者表示,人工智能应用的领域很广泛,每个细分领域的处理方式很不一样,“至少在短期内,我所在的图像识别领域还不能离开标注师。”

他例举了四点理由:

1. 计算机视觉领域仍然处于早期阶段,神经学习领域在最近5年才有了飞跃式提升,目前还在积累数据;

2. 在计算机视觉领域,学术层面的确有无监督学习的训练方式,但是在实际图像识别训练的角度上,目前每一家都还是进行有监督的学习;

3. 在市场的角度看,无论是车企本身还是自动驾驶解决方案供应商,仍处于构建自己核心能力的阶段。在这种竞争环境下,大家都没有建立公用数据库的动力,因此自有结构化标注的数据的价值就会更加凸显;

4. 从技术的角度看,目前市场上识别技术还没有出现公认的最优解。各家的算法都有不同的技术路线,一旦算法的更迭,还是需要新数据去训练和进化。因此在算法公认最优解出现之前,人工对数据做标注依然非常必要。

他还补充道,真实世界总有意想不到的情况。没人知道人工智能会把挂载自行车的吉普车或是运载着着好几辆小车的重型卡车识别成什么样子。更准确的人工智能,仍然需要海量、多样且真实的数据持续补充。

另有数位相关领域从业者认为,目前人工智能应用场景还在不断深化,诸如疫情期间大量公司的人脸标注工作就重新围绕口罩遮挡的场景做了处理,在工业垂直场景、医学诊断等场景中,人工智能的应用仍处于萌芽阶段。因此公司对标注师的技能要求可能会越来越高,但在可预见的3~5年,数据标注产业的规模应该会确定性的成长。

曾几何时,人们担心AI的终局将把人类从简单、机械、重复的劳动中解放出来,从此人类只需要专注于需要创造、情绪、社交互动的岗位。

却未曾想过,构建人工智能的过程,竟然创造出众多简单、机械、重复的劳动岗位。

或许,他们就是人类最后的手工业者。

03

后记

白女士已经工作一年多了,她形容这份工作的感觉就是——“刷题”。不过刷着刷着,也慢慢觉得有了些意思,比如在遇到不认识的图片或文字时,查查资料也能学到点新东西。

相关人士也表示,由于收到了许多县级政府的合作邀约,阿里今年也有意持续扩大Ai豆扶贫项目,拓展更多试点。但作为扶贫项目,这个简单、机械、重复的行业能否做到“授人以渔”?

他回复了以下几点:

1. 绝大多数标注师文化程度较低,通过培训他们起码掌握了电脑的基本操作能力;

2. 业务的订单分细分了很多诸如金融、医疗、交通等行业领域。如果不是标注工作,他们可能永远也不会接触到这些行业,而理解行业专用词汇的过程就是学习;

3. 最关键的是,标注师是他们在县城就业普遍的最优解,标注师收入通常比当地销售或收银员要高一些。

至于外界对标注行业的“数据富士康”评价,他回应称:“外人不能太上帝视角了,是不是好事,还是要站在他们的立场去看问题。”

当机械代替人力成为时代的强权,有批人失去了工作,但围绕着机械新创造出了能源、制造、维修、运输等产业,另一批工作又诞生了。

在可预见的将来,人工智能也许会成为新的时代权力高点,届时围绕人工智能,全新的职业秩序又将被重新建立。

至于人工智能会带来什么样的未来,也只能交给更远的未来去回答了。科幻电影《银翼杀手 2049》中,华莱士有一句话:Every leap of civilization was built on the back of a disposable workforce——每一次文明的跃进,都建立在可被抛弃的劳动力基础之上。

且看看标注师们喂养长大的人工智能,将反哺给我们一个怎样的世界。

References:

[1] 清河县Ai豆项目招聘

http://www.qjzhf.gov.cn/Government/PublicInfoShow.aspx?ID=13071

[2] 锐图:让自动驾驶学会“科目一”:探访人工智能背后的数据标注师. 2020.8.18

https://new.qq.com/omn/20200818/20200818A05PHC00.html

[3] 石三香:没有这些脏乱累,哪儿来的“今日头条”.2020.3.12

https://www.huxiu.com/article/343677.html

[4] AI战“疫”崭头角——“人工智能训练师”新职业正式发布

http://www.mohrss.gov.cn/SYrlzyhshbzb/dongtaixinwen/buneiyaowen/202004/t20200426_366504.html

[5] 搜狐汽车:聚焦两会|上汽集团陈虹:提高车规级芯片国产化率 加强汽车数据安全保护.2021.03.03

https://www.sohu.com/a/453729166_430289

[6] 吴昕,力琴. 在线招聘AI或芯片人才、扩充数据标记团队,马斯克的「超级怪兽」1.0最快明年完成. 机器之能.2020.8.17

https://mp.weixin.qq.com/s/lNhalbVb0WN1k-5JzOR9ig


网易智能开通视频号啦~Tech逆向思维是网易智能旗下专注专注于科技、AI领域大公司大事件、新观点新应用和当下科技热点的科普号。

来!带你换个角度看世界~

最新视频【为什么脑机接口是马斯克的下一个疯狂赌注?

欢迎大家留言互动,关注我们~

RECOMMEND

网易智能有12个不同垂直领域社群等你来

添加智能菌微信:kaiwu_club

扫码了解更多



推荐阅读
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 数字账号安全与数据资产问题的研究及解决方案
    本文研究了数字账号安全与数据资产问题,并提出了解决方案。近期,大量QQ账号被盗事件引起了广泛关注。欺诈者对数字账号的价值认识超过了账号主人,因此他们不断攻击和盗用账号。然而,平台和账号主人对账号安全问题的态度不正确,只有用户自身意识到问题的严重性并采取行动,才能推动平台优先解决这些问题。本文旨在提醒用户关注账号安全,并呼吁平台承担起更多的责任。令牌云团队对此进行了长期深入的研究,并提出了相应的解决方案。 ... [详细]
  • 北交桑基韬:“超”人的机器学习,非语义特征的得与失
    点击蓝字关注我们AITIME欢迎每一位AI爱好者的加入!作者|桑基韬整理|维克多人工智能目前最大的“拦路虎”是不可信赖性,以深度学习为基础的算法 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 分享css中提升优先级属性!important的用法总结
    web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]
  • 点击上方“新机器视觉”,选择加”星标”或“置顶”重磅干货,第一时间送达很早就想总结一下前段时间学习HALCON的心得,但由于其他的事情总是抽不出时间。去年有过一段时间的集中学习,做 ... [详细]
  • 微信回应「10 元就能在朋友圈改定位」;谷歌官方首次提及 Android 11;Node 8.16.2 发布 | 极客头条...
    微信回应「10元就能在朋友圈改定位」;谷歌官方首次提及Android11;Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]
author-avatar
是个success
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有