Kepler如何借助Claude打造可验证的金融服务AI

在我们的系列文章《初创企业如何利用Claude构建产品》中，我们展示了初创企业如何通过AI改变各自行业。本文将介绍Kepler如何为金融服务领域打造了一套信任与验证层，确保AI输出的可靠性。

金融机构处于高度监管的环境中，所有报告必须可审计且负有责任。无论是监管文件、交易推介还是研究报告中的每一个数据，都需要能够追溯到原始来源进行验证。

传统金融行业依赖的工具虽然能提取数据，但仍需分析师进行核实。分析系统无法理解自由形式的问题、分解步骤，或识别某个指标需要跨多个财务期间提取不同数据项。AI系统能完成这些理解，但通常将推理与计算合并在一起，导致输出数字由模型直接生成，存在出错风险。

Vinoo Ganesh和John McRaven曾在Palantir为国防、能源和金融机构构建数据系统，这段经历让他们深刻理解在必须保证答案可验证的环境中信任的重要性。创立Kepler之前，他们与147家金融机构（包括私募股权、对冲基金和投资银行）交流，几乎所有人都表达了同样的诉求：大家都想用AI做研究，但没人信任AI的结果。正如一位董事总经理所说：“我怎么信任我无法审计的东西？”

他们的解决方案是构建一套确定性基础设施，作为AI的信任与验证层。结合Claude作为推理和解释层，Kepler Finance诞生了——这是一款面向金融服务的研究平台，分析师可以用自然语言提问，获得即时可验证的答案。

处理长流程多步骤任务与模糊性提示

金融分析涉及复杂的多步骤计算、密集数据和专业术语，且对错误零容忍。Kepler需要一个能够保持长流程计划不偏离且能提示模糊性的模型。

例如，分析师询问某公司过去八个季度的存货周转天数，模型必须确定正确的计算公式、对应的财务期间以及可能影响数据的重述情况。

团队对比了所有前沿模型，发现简单查询时表现相近，但在涉及多步骤、相互依赖的复杂计划时，除了Claude外，其他模型在第四、五步就开始走捷径或忽略约束。Ganesh表示：“在我们的工作负载中，Claude是唯一能持续保持计划完整的模型，其他模型往往前几步表现良好，随后悄悄丢失约束。”

最明显的区别是模型如何处理不确定性并保持人类参与。例如，当一个术语有两种含义时，大多数模型会选一个继续，而Claude会暂停并请求分析师确认。Ganesh说：“这种行为比任何基准分数都重要。金融分析中早期的错误假设会导致后续全部出错。”

围绕Claude构建工程化上下文

Kepler团队发现，Claude在明确界定的任务中表现更佳，尤其是结合结构化领域知识、定义和明确的解决边界。McRaven说：“在金融领域，模型不能是整个系统。我们把它当作流水线中的一个环节，负责在该环节提供模型成功所需的精确信息。提示工程优化单次调用，内容工程优化整个系统。”

团队构建了确定性执行环境，供Claude调用以确保每个操作（如计算比率、确定财务期间）都可证明正确。他们开发了专有本体，将金融概念映射到精确定义和公式，且可按需定制。安全和访问控制贯穿每一步，限制用户可访问的数据源。基于此，团队开发了可复用、可定制的技能模块，支持复杂资本结构下的企业价值计算（如优先股、可转换债券和少数股权处理）及分段收入流水线对账等常见流程。这些技能协调确定性与非确定性阶段，设计为幂等：相同输入必得相同输出。

随后，他们将工作流程拆分为多阶段流水线，针对不同阶段匹配不同Claude模型：Opus 4.7用于复杂推理，如意图分解、模糊性解决和结构化执行计划生成；Sonnet 4.6用于约束更多、吞吐量更高的阶段。团队还训练了自有专用模型用于信息召回（部分基于Claude，部分Kepler专有），在将财务报表标签映射到标准分类代码的任务中准确率达94%，远超其他模型的38-46%。

每次提示调整、模型升级和上下文修改前，团队都会用数千个案例进行测试。自动化评估流水线对比Claude输出与已知正确答案，检查结构化计划和最终计算结果。测试失败时，能追踪问题出在Claude推理、上下文提供还是后续执行。Anthropic发布新模型版本后，Kepler数小时内完成基准测试，精准识别改进、退步及需调整提示的阶段。

与Claude共拓规模

Kepler Finance已索引超过2600万份SEC文件，涵盖14000多家公司、5000万份公开文件和100万份私有文件，遍布27个全球市场。Claude使这些海量非结构化数据可用，能针对整个语料库理解问题，调和不同公司和时间的术语差异。Kepler的检索层则从经验证的SEC文件中提取数据，计算结果并组装到分析师的Excel模板中，分析师只需点击即可追溯每个数字对应的源文件具体行项。

Claude的推理层与Kepler确定性基础设施分离，使小团队能实现大规模构建。Claude负责解释层，否则需大量领域NLP工程师，Kepler基础设施负责其余部分。模块化架构让新功能开发周期从数月缩短至数周，团队可在不影响流水线其他环节的情况下优化某一推理阶段。

鉴于金融机构对合规基础设施的严格要求，Kepler从一开始就构建了完整审计日志、隔离客户环境和端到端溯源，并已获得SOC 2 Type II认证，ISO 27001认证也在进行中。

Kepler平台设计为领域无关。团队选择金融领域是因为其对AI要求极高：数据密集、术语复杂、计算繁琐且零容忍错误。为应对这种严苛环境而设计的架构同样适用于其他需要从大量文档中获得可验证答案的专业领域。无论是医疗机构核对临床试验数据与治疗方案，还是法律团队追踪数十年判例，模式一致：Claude负责推理，基础设施保证答案可靠。

Ganesh表示：“Kepler Finance是我们的首个产品，但绝不会是最后一个。”

欢迎在Claude平台上构建您的初创企业。