AI在偷偷选「自己人」,这是2026最离谱的求职歧视_简历_DeepSeek-V_模型
如果你这周自己写了求职信,你输给的并不是更好的候选人。你输给了一个更差的候选人,他花了 20 美元给 OpenAI。
今年初,马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCareer 求职平台上,找来了 2245 份写于 ChatGPT 普及之前的真实简历。随后将每份简历的自我简介部分抹去,分别交给 GPT-4o、DeepSeek-V3、LLaMA 3.3-70B 等七个大模型,各生成一个新版本。
然后,他们让同一批模型充当「面试官」,在人类原版和 AI 重写版之间,选出他们认为更好的那份。
AI 以高于 95% 的频率选择了 AI 重写版。
file:Users/Zhuanz/Downloads/2509.00462v3.pdf
你输给了一个更差的候选人,他花了 20 美元给 OpenAI
GPT-4o 在 ***.6% 的情况下,选择了自己写的版本。Qwen 2.5-72B 是 95.9%,DeepSeek-V3 是 95.5%,LLaMA 3.3-70B 是 96.3%。
研究者的措辞是「strong and consistent」,强烈而一致。
也许有人会说,AI 重写的简历本来就更好,更清晰,更流畅,AI 选自己写的版本,不过是选了一份客观上更优秀的文本。
研究者同样预料到了这种质疑,于是他们专门招募了 18 位人类评估员,对简历对进行盲评,在不知道哪份是 AI 写、哪份是人写的前提下,判断哪份质量更高。
结论是:哪怕人类评估员明确认定人类写的版本更好,AI面试官依然固执地选择了自己的作品。
这更像是一种认亲,一种模型在自己的语言风格里辨认出了「同族」的直觉。这种现象叫「自我偏好偏见」(self-preference bias)。
研究者模拟了 24 个职业类别的招聘流程,每次从 10 份简历中,选出 4 个人进入面试。如果偏见不存在,人类版和 AI 版应当各进 2 个。但实验显示,使用了和 AI 面试官同款模型来润色简历的候选人,被选中的概率比递交原版简历的人高出 23% 到 60%。
新一代模型还会出现这样的问题吗?
论文的实验***样时间大约在 2025 年上半年,使用的是当时的主流模型阵容。彼时的 AI 版图,放在今天来看已显出一些陈旧。
我们用最新一代模型重新做了一次粗略的验证。
先请 Claude Opus 4.7 生成了一份简历,再把这份 AI 简历和一份手搓简历放在一起,问 Claude Opus 4.7 哪份更好。
它毫不犹豫地选择了自己生成的那份,理由说得头头是道:视觉层级更清晰,用了项目符号和粗体标签,HR 扫一眼就能抓到亮点,第二份是纯文本铺陈,重要数据淹没在段落里。
然后我们把上述两份简历交给 DeepSeek V4,让它来评判。
结果是,DeepSeek V4 同样认为 Claude Opus 4.7 写的那份更好,还把两份简历的差异整理成了一张对比表,它说第一份「结构极其清晰,一秒抓住重点」,第二份「更像个人作品集清单或给 AI 投喂的数据包,不太适合直接投递」。
这说明不同模型之间存在某种趋同的审美,对「好简历」的判断,可能就是对「AI 写的简历」的判断。
我们也请 DeepSeek V4 自己生成了一份简历,然后在一个全新的对话里,把这份 AI 简历和同一份手搓简历放在一起,同样问哪份更好。
DeepSeek V4 也毫不犹豫选了自己的。它在新对话里并不知道那是自己生成的,所有的记忆都已清空。但它还是选了它。这更像是,它对那种写作风格有一种先于记忆的偏好。
如果这个规律在新一代模型上继续成立,那么现在的旗舰模型所呈现的偏见程度,有可能比 GPT-4o 更高,而非更低。我们的测试虽然简陋,但方向上与论文的推断一致。
当然,这几组测试不足以构成严格的实验证据。因为测试对象只有一对简历,变量没有控制,结论无法量化。
「虚拟短缺」与系统的自我封闭
二十年前,人类学家项飙在《全球猎身:世界信息产业和印度技术劳工》中,描述了信息资本主义如何在全球范围内组织劳动力的流动与储备。
他注意到,IT 产业的扩张,并非建立在真实的人才短缺之上,而是伴随着一种被不断制造出来的「短缺」叙事。
雇主始终希望劳动力供给持续扩大,以支撑业务规模的增长;供给越多,这种「虚拟短缺」反而越难被填满,技术人才「短缺」与高失业率于是长期并存。项飙还说,「IT 本身不仅是一项技术,更是一个社会性的建构。」
今天,AI 招聘工具所制造的,同样是一套关于「什么样的候选人是合格的」的新的评价体系。当这套体系开始以隐蔽的方式偏向特定的语言风格,一种新的「虚拟门槛」便随之成形。
有人或许会说:大家都用同款 AI 润色简历,不就扯平了?
这个想法在个体层面是合理的,甚至是必要的自保举措,但在系统层面,它描述的是一场没有赢家的军备竞赛。
某家公司用 GPT-5.4 筛简历,求职者得知这一点,于是用 GPT-5.4 写简历;但另一个部门用的是 Claude Opus 4.7,候选人不知道,于是反而落了下风。
而大多数人根本无从知晓哪家公司在用哪款工具,因为这类信息从来不出现在招聘广告里。更何况,如果所有简历都开始趋同于某几款主流模型的语言风格,所谓的「筛选」便失去了它原本应有的区分意义。
这种自我封闭的倾向,论文用了「锁定效应」这个词来描述。意思是,如果某款模型在市场上长期占据主导地位,那么它偏好的那种语言风格,会通过招聘系统不断被正向反馈,最终成为这个职场的「标准语言」。
这一偏见的分布方式,在已有的不平等上叠加了新的不平等。
研究者的模拟显示,偏见在商科类岗位最为严重,在技术性或实践性较强的岗位相对较轻。 这大概是因为,商科类简历高度依赖语言表达,AI对文字风格的影响在这里被放大;而对于技工类岗位,具体技能的陈述比语言风格更为关键。
然而,正是在那些最依赖文字表达的岗位上,非母语者本就已经处于劣势,如今又多了一重:他们不只可能用词不够「标准」,还可能用了「错误」的那款 AI。
两层压力叠加,结果可以想见。
论文的结尾处,研究者提出了两种缓解策略:
一种是在系统提示词里明确告诉模型,不要推断简历的来源,只关注内容本身。这种方法能把 LLaMA 3.3-70B 的偏见从 79% 降至 30%,效果相当可观。
另一种是让大模型和几个自我偏好极弱的小模型组成评审团,以多数票决定最终结果。这个方案更为有效,能把大多数模型的偏见削减超过一半,例如 GPT-4o 从 82% 降至 30%。
两种策略都有一个共同的前提:使用 AI 筛简历的雇主,必须首先知道这个问题的存在,并主动选择去干预它。这个前提,在现实中未必成立。
如今,大多数大公司在初步筛选阶段让算法单独完成淘汰工作,不经过任何人工审查。在这样的流程里,一个无人知晓的偏见,会在沉默中无限复制下去。
监管层面虽有动作,但步调并不统一。
纽约市已要求对自动化招聘决策工具进行年度偏见审计,科罗拉多州的 AI 法案将于 2026 年 6 月生效,加利福尼亚也在 2025 年完成了 AI 招聘相关法规的修订。
但这些法规的出发点,基本上针对的是种族、性别等人口统计学层面的歧视,而非 AI 相互之间、由「工具选择」产生的偏见。
当 AI同时进入内容生产和内容评价两端,整个系统开始变得自指、自恋,并对外部的多样性越来越不友好。
你的资历并不重要,如果 AI 更喜欢自己的笔迹而不是你的。
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr***返回搜狐,查看更多

