打破语义表示领域的“英语中心”壁垒,已成为大型模型发展的新焦点。

2024年3月26日,蚂蚁集团CodeFuse团队携手上海交通大学,正式发布了F2LLM-v2系列嵌入模型。该系列不仅在权威评测中表现出色,还以完全开源的方式,为全球开发者提供了高性能且高效的语义表示解决方案。

卓越表现:MTEB权威榜单斩获11项冠军

在最具权威的MTEB嵌入模型评测中,F2LLM-v2展现了全面优势:

  • 11项冠军:在德语、法语、日语及代码检索等11个语言和领域榜单中排名第一。
  • 强劲挑战者:即使是系列中的轻量级模型,也多次击败同规模的知名行业大模型。
  • 全覆盖评测:涵盖430个子场景,包括医疗问答、代码检索等,实现了全面覆盖。

全面理解:掌握282种自然语言及40余种编程语言

F2LLM-v2的强大源自其极具包容性的训练基础:

  • 多语言强化:特别加强对中低资源语言(如北欧及东南亚语系)的支持,实现真正的全球覆盖。
  • 编程语言专长:深度理解Python、Java、Go等40多种编程语言,是RAG(检索增强生成)和代码助手开发的理想选择。
  • 高质量样本:基于6000万条公开且经过严格清洗的样本,确保模型知识的纯净与广度。

极致效率:覆盖80M至14B参数的全规模模型家族

为满足从移动端到云端的多样化需求,CodeFuse团队打造了完整的模型矩阵:

  • 移动端友好:80M至330M的小型模型采用“模型剪枝”和“知识蒸馏”技术,实现移动设备上的流畅运行。
  • “嵌套”黑科技:支持动态维度调整,用户可自由切换8维与全维度,灵活平衡推理速度与存储成本。

完全开源:透明定义社区标准

区别于许多“黑箱”模型,F2LLM-v2坚持完全开源理念:

  • 全量发布:所有规模的模型权重均可下载。
  • 细节透明:公开完整技术报告,详述训练全过程。
  • 可复现性:发布全部代码与检查点,鼓励全球研究者基于此开展二次开发。

结语:打破壁垒,探索AI无限可能

作为CodeFuse开源系列的又一重要成果,F2LLM-v2的发布标志着语义表示领域迈入多语言、多场景的新时代,助力全球开发者释放AI潜能。