#模型评估 - AI情报

2026/07/09

走在前沿：汤森路透如何打造面向高风险专业工作的人工智能

汤森路透是一家拥有超过175年历史的全球内容与技术公司，致力于为法律、税务、会计、合规等关键专业领域的决策者提供可信赖的内容和技术支持。如今，这一使命也指导着公司如何构建适用于高风险专业工作流程的人工智能。 “我们是一家专注于需要高度准确性和精确性的专业技术公司，”汤森路透首席技术官Joel Hron表示。汤森路透的产品是这些专业领域的核心工具：Westlaw和Practical Law为法律研

AI资讯2026/03/17

提升技能创建者：测试、衡量与优化智能代理技能

Skill-creator 现已支持编写评估（evals）、运行基准测试，并帮助您在模型演进过程中保持技能的有效性。这些更新现已在 Claude.ai 和 Cowork 平台上线，同时作为 Claude Code 的插件和我们代码库中的一部分提供。自去年十月推出 Agent Skills 以来，我们发现大多数技能作者是领域专家而非工程师。他们熟悉自己的工作流程，但缺乏工具来判断技能在新模型下是否

AI资讯

2026/06/03

微软推出新工具，开发者可通过文本描述快速生成AI行为测试

AI研究人员和实验室在评估AI模型的安全性、合规性、谄媚行为以及对齐性等方面取得了显著进展。然而，企业和开发者面临一个新的具体需求：确保他们的AI系统在特定产品或服务中按预期行为运行。为简化这一测试流程，微软于周二发布了名为ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动的评估与回归

AI资讯

2026/05/13

大塚商会推出支持AI相关SaaS应用与落地的“全方位AI伴跑支持服务”

日本大塚商会株式会社宣布，将于5月13日起面向中小型企业推出“全方位AI伴跑支持服务”，持续协助企业有效利用并巩固AI相关SaaS的应用。该服务是一种伴跑式支持，整合多种AI服务的运营咨询，解决单一产品支持难以覆盖的跨领域运营问题。用户可通过预先购买的服务券，享受再培训、模型评估支持、智能代理创建等多样化服务。服务涵盖多个AI解决方案，用户可根据企业AI导入的不同阶段，灵活选择和消耗相应数量的

AI商业

2026/03/27

Scale AI：面向关键决策的可靠AI数据与评估平台

Scale AI 为 AI 实验室、政府机构及大型企业提供高质量数据、评估与模型优化服务，帮助构建可靠、可落地的人工智能系统。