AI研究人员和实验室在评估AI模型的安全性、合规性、谄媚行为以及对齐性等方面取得了显著进展。然而,企业和开发者面临一个新的具体需求:确保他们的AI系统在特定产品或服务中按预期行为运行。
为简化这一测试流程,微软于周二发布了名为ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动的评估与回归测试评分)的开源框架。
微软表示,ASSERT利用AI将高层次的自然语言描述(如目标、政策或预期行为)转化为详尽且带评分的测试用例,方便开发者进行深入分析,从而轻松评估特定应用的AI行为。
ASSERT通过将AI模型预期行为和政策的自然语言描述转换为结构化的可接受与不可接受行为集合,自动生成问题场景和测试用例,执行测试并给出评分。它还能记录AI系统的执行路径,包括中间动作和工具调用,帮助开发者定位失败环节。
开发者还可以提供系统上下文、工具和限制条件,以进一步定制评估内容。
例如,开发者可以指定文档研究AI代理不得向公司外部人员发送邮件,限制机密信息仅限C级高管访问,并要求提供考虑先前上下文的简明摘要。ASSERT将基于这些规则生成测试用例,持续检测系统是否遵守规定。


微软指出,该框架弥补了通用评估无法覆盖的空白,特别是在AI模型需根据应用或产品的上下文、政策和工具调整行为时。
微软负责任AI首席产品官Sarah Bird表示:“我们发现评估对做出正确决策至关重要。如果不了解AI系统的行为,就很难判断它是否达到了组织的标准……要构建值得信赖的系统,必须评估更多与应用相关的维度。”
Bird还提到,ASSERT可用于系统构建阶段、部署后以及持续监控。
此次发布正值AI行业逐步转向更可重复的测试和回归检查之际。随着模型能力提升,斯坦福的HELM、MLCommons的AILuminate以及METR等评估组织纷纷推出基准测试,以衡量模型在不同条件下的表现。


