GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人 天天头条
ChatGPT大火后,数据标注员迅速进入大众视野,也成了就业新风口。他们有的年薪百万,有的日结两百,但在ChatGPT风口上,作为人工智能背后“老师”的他们却也是局外人,存在被替代的风险。
所谓数据标注员即指,对人工智能原始数据集进行标注、分类、分析和清洗来帮助训练机器学习算法和人工智能模型的职业。数据标注员以入行门槛低,上手快,薪资待遇好也广受县城青年欢迎,目前全国已经建立起多座超千人数据标注基地。
(资料图片仅供参考)
然而,数据标注行业这一新风口同样存在“教会徒弟,饿死师傅”的可能,随着人工智能大模型的迭代这一职业可能面临被替代的风险。目前国外已经出现AI自动标注替代人工标注的案例。那么,在人工智能行业飞速发展的当下,对普通人来说数据标注员是一份好工作吗?数据标注这一细分赛道发展前景如何?目前正面临哪些问题?未来,数据标注行业会被AI标注颠覆吗?
对此,新京报贝壳财经记者采访了数位数据标注员、数据标注行业创业者以及人工智能领域有标注需求的甲方公司负责人、学界人士,试图解答上述问题。
4分钱一个框,每天拉够2500个,数据标注员成就业新风口
作为人工智能背后的“老师”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能学习的”。从每天早上9点上班开始,他的脑子里就只有一件事——怎么完成单日2500个框,达到95%合格率的要求。
几个月前,小雷辞去了工厂车间的工作,应聘成为了一名数据标注员。相较于制造业的灰尘、酷暑和严寒,新工作办公室内有空调和暖气,整洁干净的办公桌上还摆放着新鲜的绿植。
宽敞明亮的办公室里聚集了包括小雷在内的50多名20-30岁的年轻人,他们大多具备大专院校及以上教育水平,乘着人工智能的风口成为了行业基层的数据标注员,每天的工作就是对海量数据进行清洗、分类、画框、注释、标记等操作,转换成符合算法工程师要求的标准交付。
以自动驾驶领域的3D点云标注为例,小雷的单位规定单日标注任务量为2500个框,底薪2500元,合计每个框4分钱,超额完成任务还有绩效工资,这对学历不高,身处河南县城的青年来说,已经算是一份薪资中等偏上的工作。
所谓数据标注即指对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注是人工智能获取训练数据的主要渠道,应用场景广泛。从语音转录、人脸识别、自动驾驶到AI聊天,人工智能模型训练所需要的海量数据目前几乎全部依赖数据标注员手工标注。
不过,与大众印象中高新技术行业往往需要高学历人才不同,2021年版的《人工智能训练师国家职业技能标准》对该职业的能力特征描述为“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普通受教育程度则为“初中毕业(或相当文化程度)”。
高需求量、低用工门槛为学历层次相对较低的普通人提供了进入办公室工作的机会。2018年,山西转型综合改革示范区与百度合作,建造了基地占地面积超1万平米,数据标注员超2000多名的数据标注基地;在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作;在山东的第一个数据标注基地,已经有1500名从业者。
基层数据标注员:层层外包下有的到手薪资千余元,人员流动频繁
结束上一份电商工作后,高小贝回到太原老家,在朋友的介绍下开始接触数据标注行业。付费后,高小贝进入培训公司的3D点云项目组,从0基础到逐渐上手再到开始接单,高小贝用了40多天,项目标注单价则为1毛8分钱。
第一次项目回款,高小贝收到了三千四百多元,除去培训费用,还有少部分结余。
与高小贝相比,小雷入职前并未参加任何培训,从完全不懂到单日完成2500个框且正确率95%,单位只给了小雷一周不到的时间,由于从事时间较短,熟练度欠佳,再加上经常返工重标,即使每天多加班2-3个小时,小雷效率最高的时候,单日工作量也只有2000个框左右。
所谓3D点云项目单日2500个框,并不意味着仅是圈出图片中的障碍物,实际上,标注员在工作时还要注意障碍物的尺寸、ID、方向,以及点云是否框全,是否漏框了轮胎点,是否框入了地面点,同时还要判断车在高速行驶时出现的残影是否框选等。小雷认为3D点云标注工作并不算难,但具体操作要求比较复杂,所以很难在单日内大批量标注。
“标注本身就是个重复性的工作。上手不难,难的是都不愿意培养,都喜欢直接能干的。”前数据标注员田先生如此告诉贝壳财经记者。由于缺乏培养机制,再加上职业发展天花板有限,从事数据标注行业接近一年后,本科毕业的田先生选择了辞职。
同为3D点云标注项目,小雷公司开出的标注单价为每个框4分钱,而高小贝所在的培训公司单价则为1毛8分钱,为何会出现如此大的单价差异?
实际上,多位数据标注行业受访者向记者证实,行业内层层外包的现象比较严重,从有标注需求的甲方公司到中标的乙方公司,再到框架下的二包、三包,甚至四包公司,每层都会抽取一定的费用,最后落到标注员身上,标注单价4分钱并不罕见。一位有标注需求的甲方公司项目负责人向贝壳财经记者透露,自家公司的视频事件描述标注,报价一条9毛,最后分到标注员手中单价可能只有几分钱。
此外,由于标注工作的层层外包,标注公司交付时的沟通成本也随之变高,甲方的需求经过层层传达后经常出现沟通不及时,标注标准来回变化的情况,因此返工重标也是大多数基层数据标注员不得不面对的问题之一。
数据标注员低入门门槛的同时也意味着低竞争力,所谓的数据标注行业在中低端市场正逐渐演变为传统的人力资源密集行业。
在每天加班的情况下,小雷一个月到手薪资也只有一千多元,且要忍受由于长时间操作电脑、鼠标而带来的眼睛干涩、手部酸痛感。目前,小雷选择了辞职寻找新的工作。
层层外包模式下,也有原来的从业者,选择了创业。
考虑到从事数据标注工作个人产出有限,且行业表现为多劳多得,高小贝选择了复制裂变,自己投资开办了一家数据标注公司。不到一年的时间内,她的标注公司全职人数达到了20人,公司标注部门每月净营收在2.5万-4万元之间。
此外,从自己的创业经历出发,高小贝的公司还开发了标注孵化业务,提供对个人以及团队的数据标注培训,目前公司已经孵化分公司3家,孵化人数则达到了16人。“市场上割韭菜的公司居多,高额加盟费、分包转包各种情况搞得整体市场乌烟瘴气。但总的来看,行业本身很适合小资本创业、赔率低,如果创业者能接到优质订单,在团队管理、培训流程上得到指导,行业前景还是不错的。”高小贝说。
收入两极分化,高素质人才年薪百万背后?
林霖(化名)也是数据标注行业的头部玩家,他以传统人力资源行业起家,后转型数据标注行业。
“今年人工智能生成赛道爆发,我们公司已经接到了大批量数据标注外包需求,预计今年可以做到十倍营收增长。”林霖对贝壳财经记者表示。
他认为,数据标注行业发展潜力巨大,不断扩张团队规模,提升团队整体素质才能接到一手优质的标注项目。林霖的团队目前全职员工人数上千,其中本科生占比较大,公司在河南、湖南、重庆等多地均设有数据标注基地,服务的客户主要是头部的互联网和人工智能企业。
2020年转型数据标注行业,经历了行业非线性增长的几年,林霖的公司抢占了数据标注行业的小风口,在生成式人工智能标注领域已是业内最大团队之一。
林霖向贝壳财经记者透露,数据标注员的平均薪资一般略高于公司当地平均薪资,尤其是高素质标注人才,薪资待遇则更高。“目前我知道最高的,纯粹做数据标注,不参与算法、研发等,差不多在90-100(万年薪)。”
普通数据标注员月薪两三千,高级数据标注从业者年薪百万,为何会有如此大的薪资差距?
林霖向贝壳财经记者解释,普通数据标注员仅需要对一个标注题目负责,高级数据标注从业者则需要对一个标注环节,甚至对整个标注需求负责;此外,标注业务也根据难易程度分为不同等级,例如在自动售货机订单审核项目,人工仅需抽查机器判断的已售商品是否准确即可,如是否将果粒橙识别为可口可乐,对标注员个人能力要求不高,而在ChatGPT问答规则设计项目中,好的标注员在回答“背诵苏轼《水调歌头》”提问时,不仅会给出诗词全文,还会揣摩提问者提问意图,给出苏轼在中国诗词史上地位如何、此首诗词相关的背景、诗词衍生的其他内容等等。“一个优秀的数据标注员能通过关键词,识别出提问者背后的真实需求是什么,进而设计规则。”在林霖的公司不乏中科院博士从事数据标注工作。
与大部分人印象中数据标注员低门槛好上手不同,林霖透露,数据标注行业其实不乏对高素质人才的需求,例如医药行业、金融行业相关的标注更倾向于寻找有相关教育经历或从业背景的人才标注,ChatGPT人机对话项目则倾向于寻找文字理解能力好的人才操作。
“教会徒弟,饿死师傅”员会被AI标注替代吗?
随着人工智能自主学习能力的不断加强,人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分半标注的数据,不依赖人工标注的自监督学习和数据标注也已在业界出现。来自苏黎世大学的一篇名为《在文本注释任务上,ChatGPT优于众包工人》的论文显示,用ChatGPT给文本做数据标注的成本不到0.003美元一条,显著低于人力成本。
“教会徒弟,饿死师傅”的传言正在弥漫,数据标注员最终会被AI标注替代吗?
多位学界人士对贝壳财经记者表示,低门槛的数据标注工作的确会被人工智能标注取代,如果大模型的性能已经满足需求,那么直接用大模型的预测作为标签,来蒸馏小模型即可,如ChatGPT已经能够成熟地自动识别和分类文本,并对文本的情感进行分析和评估。不过,也有学界人士告诉记者,虽然自动标注发展越来越成熟,但正确率并未达到100%,而是普遍集中在50-70%。此外,不少数据标注项目其实稍有门槛,对于某些特定领域的标注,人工智能暂时还不能取代人类。
林霖则表示,自己非常看好数据标注行业未来的发展。他认为,人工智能行业的发展无穷无尽:从语音标注到人脸标注,再到自动驾驶领域的3D点云标注,以及近几年大热的ChatGPT类标注。
“与其担心没有项目可接,不如提高自己与时俱进的能力”。高小贝则告诉记者,人工智能领域有一句流传甚广的老话非常适用,即“人工智能行业,有多少人工就有多少智能”。
(文章来源:新京报)
标签:

进入了发展快车道 冷链行业市场规模正在快速膨胀
2022-03-21

行业正站在风口 数字化时代在为传统的自行车产业赋能
2022-03-21

以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
2022-03-21

拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
2022-03-21

投诉量激增 直播带货存在这么多问题的主要原因是什么?
2022-03-21

工作专班深入到各企业 春寒料峭挡不住松原市施工热情
2022-03-21

引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
2022-03-21

创新平台建设和科技成果转化 德州加大力度重奖创新
2022-03-21

潜在风险进一步放大 商品房现房销售已是大势所趋
2022-03-21

有序复工复产 1—2月份工业经济发展新动能持续增强
2022-03-21
行业正站在风口 数字化时代在为传统的自行车产业赋能
以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
投诉量激增 直播带货存在这么多问题的主要原因是什么?
工作专班深入到各企业 春寒料峭挡不住松原市施工热情
引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
创新平台建设和科技成果转化 德州加大力度重奖创新
潜在风险进一步放大 商品房现房销售已是大势所趋
有序复工复产 1—2月份工业经济发展新动能持续增强
多层次高频调度 1至2月河北省工业运行先行指标稳中有增
以车路协同为基础 智能交通推动城市交通绿色高质量发展
人才短板成为制约产业链高质量发展的关键节点
通过技术手段整合调配供给资源 家政行业不断提质扩容
强化产业链深层次合作 加强重大装备国产化“一条龙”模式构建
如何进一步提升纳税人缴费人的减税降费获得感?
探索建设大数据及网络安全示范试点城市有哪些积极意义?
对制造业中小微企业实施缓缴税费政策有哪些积极意义?
进一步增强自我保护意识 消费者需注意辨别谨慎消费
将“走出去”变“请进来” 西安贸易产业转移承接作用不断得到增强
厦门应如何融入“数字中国”的重大战略发展大局?
江苏省如何不断满足老人日益增长的养老服务需求?
建设一体化的职业健康信息管理平台 天津职业人群保障加强
潜力持续释放 1—2月乡村消费品市场恢复略好于城镇
直接对接社会化服务 楼宇调解室将整体提升青岛劳动争议水平
成功化解纠纷11.47万件 银保监会服务质量日趋提高
春雷响百虫出 惊蛰文化在其他方面有了进一步发展
青绿山水画在古代山水画发展史上有着怎样的影响与地位?
开播即爆款 “文化类节目收视率低”这一固有印象被推翻
涵盖了109件真迹作品 凯斯·哈林展览将持续至6月13日


- 带有一点自信的自嘲 “隔路”是另一种味道的“凡尔赛”
- 与文渊阁前后呼应 “何以中国”特展隆重致敬文化大成
- 严重者可造成暂时性失明 享受冰雪运动要注意眼睛的健康防护
- 种类繁多让人眼花缭乱 选购牛奶时需要重点关注什么?
- 网课让孩子感到不安焦虑怎么办?八问八答回应广大家长关切
- 循环系统很容易受到刺激 “倒春寒”期间老人该如何做?
- 青少年患者睡眠问题日趋增加 9条建议为孩子助眠
- 我国肥胖人群正逐年递增 不良饮食习惯是重要诱因
- 如何减少噪声对听力的损伤?这份耳部和听力保健小贴士请收好
- 强化住房限购措施 西安限购限售范围进一步扩大
- 多种方式增加供给 进一步降低新市民和青年人的居住成本
- 预计9月下旬海口可实现安居房申请网上办理
- 政策调控力度持续升级 8月百城二手房市场均价止涨转跌
- 8月中国新房找房热度依然保持平稳 环比微涨0.2%
- 进一步加强商品房销售价格备案管理 今年全国楼市调控刷新历史纪录
- 西安第二批集中供地中28宗为现场拍卖方式出让
- 细分化需求得到释放 房屋居住的属性越发凸显
- 佛山顺德龙江近日挂牌商住地起拍价约19.88亿元
- 青岛市4宗地竞品质抽签结果出炉 地溢价均约15%
- 坚持政策支持、多方参与 浙江版保障性租赁住房明确新增比例目标
- 简化审批流程 武汉将实现房源申请配租全程网上办
- 哈尔滨新增本土确诊病例3例 活动轨迹公布
- 哈尔滨市公布3例新增本土新冠肺炎确诊病例活动轨迹
- 山东深耕文化资源 推动旅游业高质量发展
- 今年新增952件(套)!南京大屠杀再添新证
- 四川非遗传承人张雄志:巧手捏面塑 指尖传非遗
- 10月以来我国寒潮为何如此频繁?中国气象局回应
- 56位残疾人士登上黄山 互利互勉共建生活希望
- 安徽潜山两车相撞 已致8人死亡3人受伤
- 上海洋山海关首次在出口货运渠道查获夹带卷烟
- 山西忻州古城:一城风华延续千年历史文脉
- 呼伦贝尔新巴尔虎右旗公布1例无症状感染者行动轨迹
- 新增“53+1” 内蒙古累计本土确诊病例增至185例
- 昆明公安打击破坏生物多样性犯罪 抓获130名涉案嫌疑人
- 山西朔州“11·11”较大透水事故调查报告发布 对38人问责处理
- “海关国门小卫士”竞争上岗 淘汰率接近一半
- 深圳摧毁特大品牌化妆品走私网
- 28人被问责!山西石港煤业“3·25”事故调查报告公布
- 湖南韶山以河长制带动全民治水 让每一处水面“长治久清”
- 上海市奉贤区人大常委会原党组书记袁晓林被“双开”
- 民进会员谈反映社情民意信息工作:心怀大我 敢讲实情
- 80岁“留守”奶奶短视频诉孤独 千万网友心疼:我们陪您唠嗑
- 40年来为子弟兵送出1.3万余双布鞋和鞋垫的“布鞋奶奶”走了
- 当男幼师是什么体验?他们说:有委屈尴尬 但大部分是幸福
- 庐阳警方通报幼童坠亡事件:嫌疑人已被刑拘
- 内蒙古新增本土确诊病例53例、本土无症状感染者1例
- 哈尔滨市启动部分地区第一轮全员核酸检测
- 四川通江发生两车相撞事故 致3人死亡
- 11月谣言在“身边”,别信这些无稽之谈
- 追剧为何上瘾?你追的不是剧,而是及时满足的快感