打破语义表示领域的“英语中心”壁垒,已成为大型模型发展的新焦点。
2024年3月26日,蚂蚁集团CodeFuse团队携手上海交通大学,正式发布了F2LLM-v2系列嵌入模型。该系列不仅在权威评测中表现出色,还以完全开源的方式,为全球开发者提供了高性能且高效的语义表示解决方案。
卓越表现:MTEB权威榜单斩获11项冠军
在最具权威的MTEB嵌入模型评测中,F2LLM-v2展现了全面优势:
- 11项冠军:在德语、法语、日语及代码检索等11个语言和领域榜单中排名第一。
- 强劲挑战者:即使是系列中的轻量级模型,也多次击败同规模的知名行业大模型。
- 全覆盖评测:涵盖430个子场景,包括医疗问答、代码检索等,实现了全面覆盖。
全面理解:掌握282种自然语言及40余种编程语言
F2LLM-v2的强大源自其极具包容性的训练基础:

- 多语言强化:特别加强对中低资源语言(如北欧及东南亚语系)的支持,实现真正的全球覆盖。
- 编程语言专长:深度理解Python、Java、Go等40多种编程语言,是RAG(检索增强生成)和代码助手开发的理想选择。
- 高质量样本:基于6000万条公开且经过严格清洗的样本,确保模型知识的纯净与广度。
极致效率:覆盖80M至14B参数的全规模模型家族
为满足从移动端到云端的多样化需求,CodeFuse团队打造了完整的模型矩阵:
- 移动端友好:80M至330M的小型模型采用“模型剪枝”和“知识蒸馏”技术,实现移动设备上的流畅运行。
- “嵌套”黑科技:支持动态维度调整,用户可自由切换8维与全维度,灵活平衡推理速度与存储成本。
完全开源:透明定义社区标准
区别于许多“黑箱”模型,F2LLM-v2坚持完全开源理念:
- 全量发布:所有规模的模型权重均可下载。
- 细节透明:公开完整技术报告,详述训练全过程。
- 可复现性:发布全部代码与检查点,鼓励全球研究者基于此开展二次开发。
结语:打破壁垒,探索AI无限可能
作为CodeFuse开源系列的又一重要成果,F2LLM-v2的发布标志着语义表示领域迈入多语言、多场景的新时代,助力全球开发者释放AI潜能。


