当前,监控技术行业正处于舆论的风口浪尖,原因并不完全积极。美国移民与海关执法局(ICE)利用Flock的摄像头网络进行监控引发争议,家用摄像头制造商Ring因开发新功能允许执法部门向居民索取街区录像而受到批评,围绕安全、隐私以及监控权的讨论日益激烈。

然而,争议并未阻碍市场的发展。视觉语言模型的持续进步为企业提供了更多创新手段,帮助他们更有效地监控场所内的情况。

视频监控初创公司Conntour的联合创始人兼CEO Matan Goldner表示,伦理问题对他们来说至关重要,因此公司在选择客户时非常谨慎。虽然这对一家成立不到两年的初创企业来说似乎不符合商业逻辑,但Goldner透露,Conntour已有多家大型政府和上市公司客户,其中包括新加坡中央缉毒局,这使得他们能够坚持这一原则。

Goldner在接受TechCrunch独家采访时表示:“我们拥有如此重要的客户群,这让我们能够选择合作对象并保持控制权……我们严格把控使用者和使用场景,确保符合道德和法律标准。我们会根据具体客户的用途做出判断和决策,确保合作的合适性。”

正是这种市场认可帮助Conntour获得了投资者的青睐。该公司近期完成了由General Catalyst、Y Combinator、SV Angel和Liquid 2 Ventures领投的700万美元种子轮融资。

Goldner透露,这轮融资仅用72小时便完成。“我在八天内安排了约90场会议,仅三天后——从周一开始,到周三下午就结束了。”

Conntour的谨慎选择或许是明智的,尤其是在AI工具日益强大的背景下。该公司的视频平台利用AI模型,允许安保人员通过自然语言查询摄像头画面,实时搜索任何物体、人物或事件,打造了一个专为安防视频设计的类谷歌搜索引擎。平台还能基于预设规则自动监测并识别威胁,及时发出警报。

与依赖预设参数检测特定物体、动作或行为的传统系统不同,Conntour采用自然语言和视觉语言模型,极大提升了灵活性和易用性。用户可以提出诸如“查找穿运动鞋在大厅传递包裹的人”的查询,系统会迅速检索所有录像和实时视频,返回相关结果。

由于平台内置AI模型,用户还能通过提问获得文字答案,配合相关视频片段,并生成事件报告。

Conntour的另一大优势是其可扩展性。Goldner解释说,该平台与其他AI视频搜索服务的主要区别在于其设计能够高效扩展,支持成千上万的摄像头画面监控。实际上,Conntour的系统可以在单个消费级GPU(如Nvidia RTX 4090)上同时监控多达50路摄像头。

公司通过使用多种模型和逻辑系统,智能判断每次查询应调用哪些模型,以最小计算资源实现最佳搜索效果。

Conntour的系统支持完全本地部署、全云端部署或混合模式,能够兼容大多数现有安防系统,也可作为独立的完整监控平台使用。

不过,视频监控行业长期面临的难题是:监控质量受限于摄像头画质。比如,低分辨率摄像头在光线不足的停车场拍摄的画面细节难以辨认。

Goldner表示,Conntour通过为搜索结果提供置信度评分来应对这一问题。如果摄像头画质不佳,系统会返回低置信度的结果。

展望未来,Goldner认为最大技术挑战是如何在保持系统高效的同时,充分发挥大型语言模型(LLM)的能力。

他说:“我们面临两个相互矛盾的目标。一方面,我们希望提供类似LLM的自然语言灵活性,允许用户提出任何问题;另一方面,我们必须保证系统资源消耗极低,因为处理成千上万路视频流的计算需求非常巨大。这种矛盾是我们领域最大的技术障碍,也是我们正在努力攻克的难题。”