马克伊独自一人在公寓里,仿佛陷入了无底洞,准备迎接一场战争。

每天早晨,他醒来吃早餐,打开笔记本电脑,坐在厨房的桌子旁或靠在带有良好背部支撑的棕色扶手椅上,开始编写代码。有时,他甚至没注意到太阳已经落山,直到室友回家问他为什么灯没开。

几天来,马克伊一直在浏览一个关于医学住院医师项目的Discord群组,这里汇聚了大量学生分享申请和面试的经验。他看到许多学生陆续收到面试邀请,而自己却只有直接的拒绝通知。

这让来自德克萨斯州休斯顿、性格温和的33岁马克伊感到不仅奇怪,更觉得不公。他拥有常春藤医学院的优异成绩,在《美国医学会杂志》和《柳叶刀》等权威期刊发表过文章,个人陈述感人至深,推荐信也极为出色。一位教授甚至写道:“我从未见过比查德更有才华、更适合医学领域的学生。”

马克伊仔细检查自己的申请材料,试图找出致命缺陷,但一无所获。于是,他开始怀疑另一个可能的原因——他听说一些医院使用免费的AI筛选工具处理申请,而该工具曾错误显示部分学生的成绩。他开始怀疑,是否正是AI导致他未能获得面试机会。

在他的医学学生表现评估(MSPE)第一页,马克伊发现了一段可能触发自动筛选工具降级他申请的描述。MSPE中写道他“自愿”请了三次长达22个月的假,并因“个人原因”将第三学年延长至两年。

事实并非如此。2021年,马克伊被诊断出患有强直性脊柱炎,这是一种影响脊柱的自身免疫疾病,发作时他甚至无法站立,更别说完成临床轮转期间要求的高强度体力劳动。他原计划用七年而非通常的四年完成医学院学业,这些缺席都是不可避免且有医疗依据的。虽然MSPE第一页有叙述说明,但将缺席称为“自愿”,可能被AI误解为他无法承受医学院的压力,未能跟上学习进度。

随着时间推移,马克伊越来越害怕多年的努力会以失败告终。他告诉WIRED:“我从那个黑洞里爬出来,曾经六个月无法行走。我走到这一步,怎么会发生这种事?”他和数百万求职者一样,心中不断问自己:AI是否毁了我的申请?

连招聘人员也承认,这种担忧很合理。一家招聘平台CEO去年秋天表示,行业正陷入“AI末日循环”:HR抱怨大量AI生成的求职申请,导致需要更多AI筛选;求职者抱怨被不公平筛掉;有人用AI对抗AI,在简历和求职信中堆砌关键词。一位求职者对东北大学研究人员说:“这感觉像反乌托邦,我作为人类和员工的价值,取决于能否通过一系列自动化关卡。”

目前,只有少数州对AI筛选工具的使用进行了监管。伊利诺伊、新泽西和科罗拉多州(尚未生效)禁止使用歧视性工具,但仅要求雇主告知申请人AI被使用,缺乏透明度。加州的规定更严格,要求雇主定期检测AI招聘工具的偏见,但都未赋予个人了解AI如何评判自己的权利。

于是,马克伊开始了几乎不可能完成的任务。他花了六个月写邮件、研究论文、法律请求和大量Python代码,试图窥探AI筛选工具的内部机制。“这变成了我的执念,”他在二月告诉WIRED,“我从未如此愤怒过。”

马克伊的童年充满挑战。一个圣诞节,他父亲因酒驾被捕;另一个圣诞节,他看到父亲因贷款抵押的卡车被收回。上大学期间,家人破产失去房屋,21岁时父亲去世。

他对精神病学产生兴趣,是因为父亲曾解释自己酗酒的原因:躁狂期几天不睡觉,只有喝伏特加才能入睡。马克伊曾计划在华尔街发展,但那次谈话后,他转向医疗信息学并计划读医学院。2019年入学前,背部僵硬加剧,骨盆如水泥块般沉重。第二学年末,疾病让他瘫倒,他不得不请假,寻求治疗以继续学业。

疫情期间,住院医师申请激增。疫情前,学生需亲自赴医院面试,疫情后改为线上,申请数量大幅增加。马克伊申请了82个项目。

这种激增让医院难以筛选申请。2023年,美国医学院协会(AAMC)宣布与Thalamus公司合作,推广其名为Cortex的免费住院医师申请筛选工具。约1500个项目(占30%)在2025-2026周期使用该工具。

然而,2025年9月申请截止后不久,部分医院报告Cortex显示部分学生成绩不准确。申请者群体中议论纷纷。

正当马克伊因无面试机会焦虑时,他收到好消息:一篇研究摘要被美国血液学会年会接受并在《Blood》杂志发表。他将此消息告知心仪项目,面试邀请迅速接踵而至。

他认为,之前的拒绝是因为项目已根据Cortex仪表盘上的排名填满名额,“我之前的申请根本没被看到。”

Thalamus向WIRED表示,超过1.2万条查询中未收到其他成绩错误报告。加州大学旧金山分校耳鼻喉科项目负责人Steven Pletcher发现Cortex成绩显示波动,发表论文指出系统存在持续错误,可能影响申请者和项目。

Thalamus CEO Jason Reminick称,许多担忧源于对工具功能的误解,成绩波动是用户快速切换图表导致的显示问题,不影响最终结果。公司请求撤回相关论文,但未获回应。

Thalamus澄清,Cortex不是决策工具,不使用AI排序、筛选或评分申请者,主要用于成绩标准化和显示申请者是否有学术研究兴趣。

马克伊未收到这些解释,只凭二月收到的邮件推测存在“评分”机制,坚信AI存在偏见,决心揭开真相。

审计公司Babl AI CEO Shea Brown表示,即使专业审计员也难以理解大型语言模型(LLM)为何做出某个决定,因其推理过程高度不透明。检测歧视只能通过整体数据分析,无法针对单个申请判断。

马克伊尝试用不同版本的MSPE文本通过AAMC推荐的AI公平性测试工具,发现描述“个人原因”请假与“医疗原因”请假可能被算法不同评估,但样本小且缺乏上下文。

他用开源情感分析模型VADER测试,发现医学准确描述的请假语言情感评分更高。随后,他用Python生成6000个模拟申请者数据,分为两组,一组MSPE请假描述为“个人原因”,另一组为“医疗原因”。两组资格相当,但经过逻辑回归模型筛选,医学准确描述组被选中概率高出66%。

随后,马克伊找到Medicratic公司(2025年被Thalamus收购)申请筛选AI的专利,开始借助GitHub Copilot和Anthropic的Claude Code工具,逆向工程专利描述的系统,模拟数据处理流程。

他根据住院医师项目对学术表现、职业素养、领导力等特征的权重,设计了评分模型。结果显示,改变请假描述用词会显著影响评分。

3月20日匹配日临近,马克伊向Thalamus依据新罕布什尔州隐私法提交数据访问请求,要求获取其所有个人数据、评分配置、偏见缓解措施等信息,法律规定45天内回复。

Temple Health媒体关系主管Jeremy Walter表示,该院59个住院项目中有一个主要用Cortex进行“手动筛选”,总体认为AI信息不可靠。Tufts Medical Center的Kari Roberts称,许多项目首次使用Cortex筛除不完整申请,发现MSPE数据算法存在重大错误,已实时反馈给Thalamus。

Thalamus回应称,少数发现的差异已迅速调查并纠正,部分被误解为错误的情况与原始材料一致。

匹配成功三天后,Thalamus回复马克伊,称他申请的项目未使用他试图逆向的Medicratic工具,Cortex未使用专利中描述的情感评分方法。CEO Reminick确认,2025-2026周期Cortex未对申请者进行算法评分或排名,主要用于成绩标准化和学术兴趣标识。未来将试点AI筛选器,需申请者选择加入。

即便如此,马克伊不后悔投入数月研究筛选工具。“我很感激自己走到这一步,当事情威胁到它时,我想确保自己做出正确回应。”他继续研究大型语言模型如何捕捉求职材料中的语义信号,并影响决策。

AI招聘工具领域已有部分程序建立了某种形式的正当程序。例如,背景调查自动化公司Checkr每月处理数百万申请,核对公开记录,虽偶有错误导致求职者失去工作,但受联邦《公平信用报告法》监管,必须向申请者披露结果,接受异议调查,申请者可提起诉讼。

这套体系虽不完美,但至少为求职者提供了申诉渠道。并非每个人都需要成为拥有信息学和编程背景的常春藤医学生,才能为自己的权益发声。