商汤科技推出的新模型的核心优势在于其能够直接“读取”图像,而无需先将图像转换成文本,这大大加快了处理速度并减少了计算资源的消耗。商汤联合创始人兼首席科学家林大华在接受WIRED采访时表示:“模型的整个推理过程不再局限于文本,它也能基于图像进行推理。”

林大华同时是香港中文大学信息工程教授,他指出,能够直接处理图像的模型将使机器人在未来更好地理解物理世界。

与DeepSeek最新旗舰模型类似,商汤表示其U1模型可以由国产芯片驱动。林大华透露:“多家中国芯片厂商已完成对我们新模型的兼容性优化。”发布当天,包括寒武纪和比特大陆在内的10家中国芯片设计公司宣布其硬件支持U1模型。

这种灵活性尤为重要,因为美国的出口管制限制中国企业获取全球最先进的AI芯片,尤其是训练用芯片,目前主要由西方公司如Nvidia开发。林大华表示:“我们将继续推动在更多不同芯片上的训练。”但他也承认,商汤“可能仍需使用最优芯片以保证迭代速度”。

商汤已在Hugging Face和GitHub上免费发布U1模型,这也显示出中国企业正成为开源AI领域最活跃的贡献者之一。

商汤成立于2014年,曾是计算机视觉领域的全球领导者,技术应用涵盖人脸识别和自动驾驶。但随着ChatGPT及其他基于自然语言处理的AI系统成为行业热点,商汤在盈利方面遇到挑战,逐渐被DeepSeek和MiniMax等新兴中国初创企业超越。

商汤希望通过公开发布SenseNova-U1模型,帮助其在国内外AI竞争中迎头赶上。林大华表示,公司去年决定专注开源,主要是因为研究人员的反馈极大促进了模型的快速迭代。“如今,开源与否已不是决定胜负的关键,迭代速度才是。”

开源策略还帮助商汤在国际研究合作中规避地缘政治干扰。近年来,商汤因被指其人脸识别技术助力新疆地区监控和拘押维吾尔族等少数民族而多次遭到美国制裁,导致美国企业被限制投资商汤及向其销售部分技术(商汤对此指控予以否认)。

技术报告显示,SenseNova-U1生成的图像质量优于目前市场上所有开源模型,性能可与阿里巴巴的Qwen和字节跳动的Seedream等中国闭源领先模型相媲美,但仍落后于一周前发布的行业领先者GPT-Image-2.0。

不过,该模型最大的卖点是生成速度远超其他模型。它采用了商汤今年早些时候预览的创新架构NEO-Unify。

Hugging Face的AI研究员Adina Yakefu表示,这种新架构有望提升效率和性能,是一种更具雄心的尝试,尽管仍面临实际挑战。“他们选择开源非常好,社区可以更广泛地探索和测试。”此外,该模型体积小巧,能在PC和手机上运行,具备广泛应用潜力。

林大华指出,商汤开发的技术对机器人领域尤为重要。机器人在处理视觉信息时需应对大量复杂信息,“它必须思考‘如何处理房间里的杂乱?如果面前有复杂机器,我该按哪个按钮?’这些信息都需整合进模型的内部判断。”由于模型能原生理解图像,林大华希望这项技术能帮助机器人在复杂环境中更快反应、减少错误。

目前中国正经历类人机器人热潮。虽然商汤尚未开发自有机器人,但林大华表示公司正与另一位联合创始人领导的ACE Robotics紧密合作,同时开发专注于地理空间理解和现实世界模拟的模型。