客户支持和服务是当前语音AI领域最热门的应用之一。然而,要打造一个听起来像真人且响应无明显延迟的产品,在某些市场比其他市场难得多——而大多数主流语音AI产品并未针对非洲和中东市场设计。

去年成立的初创公司AethexAI正是为填补这一空白而诞生。该公司已完成由4DX Ventures领投的300万美元种子前融资,Enza Capital、Dorm Room Fund、Mojo Ventures和斯坦福GSB 26基金也参与投资。个人投资者包括斯坦福教授、电信高管以及Anthropic的AI研究人员。

与使用现有的编排工具如Vapi和LiveKit不同,AethexAI从零开始构建了自己的小型模型和编排层,以处理其目标市场中使用的英语、法语和阿拉伯语的本地方言。这一决定源于该地区运营的特殊需求。

公司还推出了面向企业的试用平台,提供API和SDK,方便开发者测试其模型。

AethexAI由Mariama Diallo和Ayooluwa Odemuyiwa联合创立。CEO Diallo曾任职于高盛,后加入YC支持的ModelML负责产品和增长。CTO Odemuyiwa毕业于加州理工学院,曾在Meta工作,并在斯坦福商学院学习后共同创立了公司。两人希望为新兴市场打造产品,开始寻找机会。

全球企业正竞相采用AI工具自动化部分业务,但效果并非总是理想。创始人发现,埃及一家呼叫中心曾大规模自动化电话服务,但因效果不佳而撤回系统。非洲多家支持中心表示,寻找合适成本的工程师来自动化电话是一大难题。

“我们在该地区自动化电话中观察到的延迟和抖动非常严重。如果我们采用现有编排工具,可能不得不使用托管在区域外的大型模型,导致更高延迟。我们意识到,为了让系统有效,必须使用非常小的模型,并在每个环节减少延迟。”Odemuyiwa向TechCrunch解释了为何选择自建模型和编排层。

AI实验室通常花费数百万训练最新模型并收集数据。AethexAI找到了解决方案。它没有追求最大规模模型,而是认为小模型足以解决延迟问题且保持准确性,开发了参数规模从3亿到17亿的Kora系列模型,远小于大型语言模型(LLM),这正是其优势所在。

为训练模型,初创公司使用了合作呼叫中心的匿名录音,并向非洲各地广播电台寄送硬盘收集更多音频数据。为降低成本,还组建了由大学生组成的贡献者网络,负责数据标注和本地姓名发音。结果,公司目前每天处理超过1.7万个电话。

在业务方面,公司注重引导初次接触语音AI的客户,提供现场演示和工作坊,帮助他们识别最适合自动化的用例。

“我们总是告诉客户,目前无法满足所有需求。我们规模较小,开始合作时会请客户先选一个最重要的用例。”Diallo表示。

公司愿意服务各行各业,但目前主要应用于催收、客户激活和KYC(了解你的客户)身份验证等电话场景。公司正以合同制方式招聘前线工程师服务本地市场,并与电信运营商建立渠道合作,处理语音AI电话的通信。公司认为即插即用的解决方案在这里行不通。

4DX Ventures联合创始人兼管理合伙人Walter Baddoo认为,非洲和中东市场与大多数语音AI公司服务的市场有本质区别。

“非洲和中东企业处理的电话量大约是西方同行的三倍,因为语音仍是客户互动的主要渠道。现有系统针对西方市场设计,依赖高端GPU基础设施,适用于标准英语和欧洲语言环境,以及美国和欧洲常见的企业工作流程。这导致企业在处理方言、语言切换和非正式语音模式时存在明显差距,同时还要兼容现有电话基础设施和实际价格水平。”

换句话说,ElevenLabs、Deepgram、Sierra和Cognigy等公司虽然快速全球扩张,但它们所服务的市场与它们进入的市场并不完全相同。像AethexAI这样的初创公司认为,专注本地方言的模型、地面合作伙伴关系以及为该地区打造的基础设施,构成了巨头们既无动力也无架构去填补的市场空白。