大家都说,AI 是来抢程序员饭碗的。毕竟写代码这块,是各大 AI 厂牌“卷”得最凶的战场——Claude、Cursor、Windsurf、GitHub Copilot......一个个都在拼命展示自己的编程实力。
但真相真的是这样吗?程序员真的是 AI 冲击下最“危险”的职业吗?
微软研究院最近用一项大规模研究给出了新的答案。他们分析了 20 万条用户与 Bing Copilot 的真实对话,想看看大家实际在用 AI 做什么,AI 做得好不好以及哪些职业最容易被 AI 影响。据悉,这也是目前已知规模最大的生成式 AI 实际使用分析研究。
话不多说,先来看看微软研究员得出的最新研究结果:
AI 影响最大的职业 Top 6:
- 口译员与笔译员(98% 的工作内容 AI 能胜任)
- 客服代表
- 销售代表
- 作家与作者
- 技术写作人员
- 数据科学家
AI 影响最小的职业:
- 护理助理
- 按摩治疗师
- 设备操作员
- 建筑工人
- 洗碗工
大家实际使用 AI 做什么?
- 信息收集:最常见的使用场景
- 写作与编辑:成功率最高的任务类型
- 客户沟通:AI 常以顾问或教练的身份提供建议
令人意外的一些发现
- 高薪 ≠ 高风险:收入高的工作,不一定就更容易被 AI 取代
- 学历有一定影响:本科学历岗位 AI 适用性略高,但差异很大
- AI 有时“跑偏”:在约 40% 的对话中,AI 实际做的事情跟用户请求的并不一样
- 动手型职业基本没受影响:需要实际操作的岗位,AI 目前还是“干不了”
研究方法
针对这次深入的研究,微软研究院的五位研究员联合发布了一篇《与 AI 共事:衡量生成式 AI 对各类职业的影响》的论文。
论文地址:https://arxiv.org/pdf/2507.07935
其中,研究员为了搞清楚 AI 到底是怎么影响工作的,分析了 Bing Copilot(现在叫 Microsoft Copilot)在 2024 年美国用户产生的 20 万条对话记录。这些对话都经过了匿名处理,采样范围为 2024 年 1 月 1 日到 9 月 30 日共计九个月的实际使用数据。
微软研究员透露,本次研究他们只研究美国用户的对话,是因为这样方便和美国的职业数据库(O*NET)进行匹配。
注:O*NET 是一个官方、标准化的“职业任务库”,它有一个层级结构,用来细分工作内容:最底层的是 Tasks(具体任务),就是你日常在做的事情;中间是 Intermediate Work Activities(IWA,中层工作活动),把很多类似任务归类;最上层是 Generalized Work Activities(GWA,广义工作活动),是更宽泛的工作类别,比如“获取信息”、“与他人沟通”、“分析数据”等。
一个有意思的切入点是,研究员把人和 AI 的每次对话分成两个层面来分析。
- 第一个是用户目标(user goal),也就是用户希望 AI 帮他做什么,通过分析这个,大家能看出 AI 实际上在执行哪些任务;
- 另一个是 AI 的实际行为(AI action),也就是 AI 在这段对话里到底干了什么。
比如说,有人问“怎么打印文件”,那这个用户的目标是“操作办公设备”,但 AI 实际上是在“教别人如何用设备”。这两个层面不一定一致,但都和“工作”有关。
为了更系统地分析,该研究团队把这些任务映射到了 O*NET 里的“工作活动”分类上。这个分类系统会把每个职业拆解成一系列日常工作内容,便于用更标准的方式进行比对。
接下来,微软几位研究员结合了用户对 AI 回答的点赞点踩(👍👎)反馈,还有一个自动化模型对“任务是否完成”的判断,从而评估 AI:
- 在哪些工作内容上帮了忙?
- 效果好不好?
- 是在干核心工作,还是只是处理了一小部分?
最后,他们根据这些因素算出了一个“AI 适用性得分”,用来衡量一个职业有多大程度正在被 AI 实际涉及、甚至取代部分工作内容。
值得一提的是,研究里把“用户目标”和“AI 行为”分开来看,并把它们对应到具体的工作任务上,其实是为了回答一个大家常问的问题:
AI 到底是在“取代”人类工作(自动化),还是在“帮忙”提升效率(增强)?
这个问题之所以重要,是因为它和薪资、就业前景挂钩——如果 AI 是“增强”,人类工作可能更值钱;但如果是“自动化”,那就可能意味着裁员或降薪。
不过,研究员也特别指出:AI 的技术能力和公司最后怎么用它,是两码事。比如,如果 AI 让程序员效率翻倍,公司既可以选择扩大团队、做更多项目,也可以选择缩减人手、节约成本。这取决于商业策略,而不是技术本身。
所以,这份研究只关注眼下一个简单的问题:AI 到底在做什么?是在协助人,还是直接动手?至于这些行为将来会不会导致失业或涨工资,他们并不做预测。
广义来看,AI 擅长的是“脑力活”而非“体力活”
根据研究结果显示,研究员先从“宏观视角”分析了大家用 Bing Copilot 到底都在做哪些类型的工作?
为此,他们用上了上文提及的 O*NET 职业数据库里最高层的分类方式,叫做 GWA,也就是“通用工作活动”。你可以把它理解成大类标签,比如“搬东西”、“分析数据”、“动脑筋”、“操作设备”这种很宽泛的活。
结果一看,还挺有意思。有些在现实生活中非常常见的工作类型,在 Copilot 的使用数据里却几乎没出现。比如说:
- 搬东西、体力劳动这类“实打实”的工作;
- 实时监控或检查机器的操作;
- 控制设备、指挥人或机器工作
这些都是需要身体参与或实时监控的工作,而聊天机器人显然不擅长这类任务,所以数据里出现得少也就不奇怪了。
上面讲的是从用户角度出发,也就是看他们在对话中输入的 Prompt 想让 AI 做什么。接下来我们换个视角,从 AI 实际做了什么——也就是输出内容——来看看对应的 GWA 类型,主要集中在以下几类:
- 获取信息
- 解读信息
- 发散性思维(比如创意类任务)
- 更新和使用知识
- 使用电脑工作
这些都是典型的“知识型工作”,也就是说,AI 更常被用来处理信息、思考问题、写东西、查资料等偏脑力的工作内容。
“你说东它答西?”——四成对话中 AI 没能对上用户的意图
紧接着,研究团队想弄明白:用户平时用 Copilot 最常干什么?
于是,他们把对话进一步按照“中间层间的工作内容分类”(IWA)拆解,结果发现,用户目标大致集中在三类活上:
- 首先是找资料,比如“收集信息”、“获取资料”、“保持知识更新”、“阅读文档”;
- 其次是写东西或做内容,包括“撰稿、编辑、做视觉设计”;
- 最后是对外沟通,譬如“向别人提供信息、解答技术问题、解释规章制度”。
再看看 AI 实际在做什么,就能看到另一幅互补的图景。
AI 的动作明显带着“服务”属性,输出的关键词常常包含“回应、提供、呈现、协助”。如果再细分,也能归到三大块:一是搜集并汇报信息(比如“整理资料”“制作说明材料”),二是解释说明(像“展示研究结论”、“讲技术细节”、“说明法规”),三是直接同用户沟通(“解答客户问题”、“提供帮助”、“建议下一步怎么做”)。
合在一起看,人类更多是让 AI 帮自己“找、处理、分发信息”,而 AI 则通过“搜集、解释、交流信息”来配合。
红色代表用户目标,蓝色代表 AI 行为
不过,人和 AI 的分工并不完全对称。研究发现,有 40% 的对话里,用户的目标和 AI 实际执行的任务,完全是两码事;有多达 96% 的对话,两边各自做的事情比重都超过了重合的部分。也就是说,他们虽然在交流,但用户和 AI 自身的关注点其实常常不一样。
即使如此,AI 的整体表现还是让不少人感到满意。
在满意度方面,研究员分析了一批包含用户点赞数据的对话,发现 Copilot 在大多数任务上都收获了不错的口碑。只要是出现频率比较高的任务,用户给的正向评价普遍都在 50% 以上。
至于哪些任务最受欢迎?结果显示,写东西、改文档、查资料、保持知识更新,甚至是挑选商品、比较产品这些购物相关的工作,用户都表示“挺有用的”。
不过,有些任务就没那么受欢迎了,像是做数据分析、财务计算、搞科学研究,还有视觉设计类的活,比如排版、画图、布置页面等等。换句话说,Copilot 在“文字类”和“信息类”的工作上更擅长,碰上图形或复杂数据,就有点力不从心。
当然,光靠点赞可能还不够全面,微软研究员还让另一个模型来自动判断每次对话有没有把用户任务完成。这种方式虽然没有主观反馈那么直接,但胜在客观、稳定,不受“谁懒得点赞”这类因素影响。
最终结果也很一致:哪个任务点赞多,它的完成率一般也高。
除了“完没完成”,研究团队还特别关注了一个维度:AI 到底能帮上多大一部分?简单来说,是在任务里“参与度”有多高。有的任务 AI 能搞定七八成,有的可能只能插上一句话。
结果发现,AI 覆盖最广的,还是那些信息型任务,比如找资料、写内容、解释技术。这些活本来就偏“知识处理”,AI 发挥空间大。相反,那些需要跟人打交道的,比如沟通协调、身份核实、调查信息等,AI 就很难介入太深。
还有个特别明显的趋势:AI 更擅长“辅助人类”,而不是“替代人类”。它能协助用户处理任务的范围往往比它能独立完成的部分要大很多。虽然这种“覆盖范围”跟点赞或完成率的关系没那么强,但却是一个很好的“预测信号”——用户通常更愿意在那些 AI 能帮上不少忙的任务中使用它,而不是盲目追求“交给 AI 全权负责”。
数据科学家、Web 前端开发者上榜“受 AI 影响最大的职业”
在研究的最后,微软研究员给每个职业打了个“AI 适用性得分”,这相当于是在评估:Copilot 这样的 AI 聊天助手,在这个职业里到底能不能派上用场?
打分的标准有三个:第一,这个职业的工作内容在 Copilot 用户对话里出现得多不多(只要出现频率超过 0.05% 就算有代表性);第二,AI 完成这些工作的表现怎么样(完成率高不高);第三,AI 的“帮忙范围”广不广(是不是只帮点边角活,还是能搞定核心任务)。得分越高,就说明这个职业更有可能被 AI 实际“用得上”。
那么,哪些职业得分最高呢?
结果显示,在排名前 40 的职业中,排第一的是口译员和笔译员——他们的工作内容里,有 98% 都和 Copilot 常见任务重合,而且 AI 表现也不错。
排在前列的还有很多熟面孔,比如写作编辑类(作家、校对、记者)、销售客服类、编程类,还有各种办公室文职工作(比如文员、证券事务人员)。另外,数据科学家、Web 前端开发者等职业也纷纷进入了受 AI 影响最大的前 40 名榜单。
这些职业有个共同点:都属于“知识型”工作,也就是说主要处理信息、文字,跟人脑打交道多,跟体力打交道少。
反过来,得分垫底的是一批需要“动手做事”的职业,比如护理助理、按摩师这类要直接照顾人的岗位;也有水厂操作员、桩机司机、卡车司机这些要动设备、盯机器的工作;再比如洗碗工、屋顶工人、保洁员等传统体力活。对于这些职业来说,Copilot 这类“打字型 AI”暂时帮不上太多忙。
不过研究员提醒道,这个研究专注的是聊天型 AI(像 Copilot 这种 LLM)对工作的影响,没考虑别的 AI 技术。所以像卡车司机这种职业,未来可能会被自动驾驶影响,但目前还不太可能被聊天机器人取代。
在论文中,微软研究员还画了一张很有意思的图,展示了 AI 适用性得分最高的 25 个职业,以及对这些分数“贡献最大”的 20 个中层任务(也就是 IWA,类似“撰写内容”、“维护知识”、“编辑文档”这种更具体的工作内容)。
图里还能看到,每个职业的“块头”代表它的就业人数有多大。如果一个职业的任务没出现在这张图里,但分数还是挺高,说明它可能还有其他“被 AI 干得不错”的活儿,只是没画出来。
这些任务很多都集中在知识密集型工作,比如编辑文稿、写程序、解读文化信息等等,流向的职业也基本是技术写手、编辑、公关、数学家、记者、翻译、证券文员、CNC 程序员……都是我们熟悉的“脑力工种”。
为了看得更清楚,研究团队还把所有职业归类到“职业大类”这个层级上——也就是官方标准里的 22 个大类。结果一目了然:AI 目前最能派上用场的,是销售类、计算机与数学类、行政支持类这几个大类。
研究还补充分析了一下:AI 协助 vs. AI 代劳,到底差在哪?
他们把前面的“AI 适用性得分”拆成两部分,一个是“用户想让 AI 帮忙”的任务(user goals),一个是“AI 实际上在做的事”(AI actions)。
结果发现,有些职业很依赖 AI 协助,但让 AI 独立上手就不行,比如厨师、养殖员这类要“动手”的工作——AI 可以告诉你怎么做,但它做不了;另一些职业则反过来,比如培训经理、HR、教练这类擅长传授知识、搞管理的职业,AI 理论上能胜任,可现实中用户却没怎么用它来干这些事。
工作的 AI 化与薪资、学历并无直接关系
一个职业会不会被 AI 波及,和工资与学历高低有关系吗?这是很多人关心的问题。
早期有些研究说,高薪职业反而更容易被生成式 AI 盯上;但也有研究表示,传统机器学习技术跟工资之间压根没啥关系。那这次微软研究团队拿 Copilot 的真实使用数据来一看,结果有点出人意料——
基本没啥关系。
研究员试着把每个职业的 AI 适用性得分和工资挂钩分析了下(工资数据来自美国劳工统计局),画了各种图,算了各种平均数,最后得出的结论是:两者的相关性只有 0.07,低得可以忽略不计。就算你把那些顶尖高薪岗位排除掉再算一次,也只是涨到 0.13,依然挺弱。
而且还发现一个“搅局大户”——销售、行政、办公室类工作。这些职位工资不算高,但 AI 用得很频繁,而且从业人数还不少,直接把“AI=高薪”的逻辑给打破了。
当然,如果你不考虑就业人数,只看每个职业的平均分数,相关性会稍微强一点(比如用户请求这边相关性是 0.17,AI 实际执行是 0.21),但还是算不上强关联。
那学历呢?
研究发现,需要本科学历的职业,AI 适用性普遍更高。比如,本科岗位的平均得分是 0.27,而不需要本科学历的职业平均只有 0.19,差距还挺明显的,统计上也很显著。
不过也别以为“学历越高越 AI 化”是铁律。因为销售、办公室助理这类不要求本科的职业,AI 适用性分数也挺高,尤其在人多的行业里更是如此。所以一旦把这些工作考虑进去,整个“学历越高 AI 越好用”的趋势也就没那么线性了。
简单说——AI 到底会不会影响你的工作,关键不在于你赚多少钱、读了几年书,而是你做的活是不是信息密集型。要是你的工作是靠处理文字、分析资料、生成内容的,AI 就很可能插得上手;但如果是动手干活、跑现场,那 AI 暂时帮不上什么忙。
部分网友破防:AI 的崛起对数据科学家太不公平了
这项研究一出,立刻在 Reddit 等社区引发热议。很多从业者看了榜单直呼“破防”,有人自嘲道:“从数据主管到洗碗机主管,这都非常适合我……”
不少人原本以为 AI 的影响会集中在几个特定领域,没想到研究结果显示:几乎每一个岗位都或多或少被 AI 点了名,而且还不是随便说说——这些结论是从真实用户用 Copilot 聊出来的数据里推出来的。
有网友看完调侃:“RIP 数据科学家,太不公平了。”也有同行认真回应:
他们这次衡量“影响”的方式挺有意思。就我个人来说,作为一名数据科学家,AI 对我的影响确实非常大。我的产出大概提高了 10 倍——或者说,完成同样工作所需的有效工时大幅下降(当然,我可不希望因此桌上堆更多任务 😉)。所以从这个角度看,影响确实很大。
不过,考虑到我现在的职级(Principal),写代码只是我工作的一部分。AI 对我工作中其他部分的影响,比如制定策略、做规划、和业务方协作等,其实非常有限。
所以……我只能说一句:RIP 初级数据科学家。
也有一些程序员表示“暂时躲过一劫”。一位开发者评论说:
“还好程序员没在这份榜单上。AI 现在处理稍微复杂点的编程任务就有点拉垮,尤其是涉及公司内部系统或要理解大规模代码库的项目。你要是真打算用 AI 替掉一堆程序员,最后可能还得再招人回来,把它搞砸的东西修好。”
那么,你觉得 AI 正在“帮你省事”,还是“准备取代你”?你的职业在这份 AI 高影响榜单上吗?
参考:
https://www.reddit.com/r/OpenAI/comments/1lwzcl1/microsoft_study_reveals_which_jobs_ai_is_actually/
https://arxiv.org/abs/2507.07935
本文来自微信公众号“CSDN”,整理:屠敏 ,36氪经授权发布。