理光免费发布内置自研安全防护功能的大型语言模型

理光发布的安全防护大型语言模型

日本理光公司于5月20日宣布，免费公开其自主开发的集成安全防护功能的大型语言模型（LLM）“Llama-Ricoh-SafeGuard-20260520”（以下简称“安全防护模型”）。

该安全防护模型基于美国Meta Platforms提供的“Meta-Llama-3.1-8B”，并在此基础上提升了日语性能，形成了“Llama-3.1-Swallow-8B-Instruct-v0.5”。通过理光独有的量子化技术，实现了模型的小型化和轻量化。

1. 安全防护模型开发背景

随着生成式AI在社会中的广泛应用，利用AI提升工作效率和创造更高附加值的工作方式受到关注，但生成式AI的安全使用仍面临诸多挑战。理光于2024年10月启动了内部项目，专注于LLM的安全性对策，涵盖法规和技术趋势的掌握，建立安全性评估指标，开发满足安全需求的有效方法，并推动其社会应用。

安全防护模型作为该项目的一部分，于2025年8月发布了针对有害提示词输入的识别功能，12月进一步支持检测LLM生成的有害输出信息。

2. 免费公开的目的

近年来，LLM的应用日益广泛，但日本在LLM领域缺乏开放模型的选择。理光此前参与了由日本经济产业省和国立研究开发法人新能源·产业技术综合开发机构（NEDO）推动的生成式AI开发能力强化项目“GENIAC（Generative AI Accelerator Challenge）”第二期和第三期，免费公开了能够高精度读取多种文档的多模态大型语言模型。

在安全防护模型重要性日益提升的背景下，日本市场上实用的相关模型仍较少。理光此次率先免费公开该模型，旨在提升社会对生成式AI安全应用的重视，并推动其安全利用。

3. 关于安全防护模型

该模型作为LLM的安全防护机制，能够监控输入的提示词及模型生成的回答，自动检测不当或有害内容。具体来说，模型学习了理光独自构建的数千条数据，涵盖暴力、歧视、隐私侵犯等14类标签。

因此，模型能够高精度识别并阻断输入的有害信息及输出的有害回答，保障生成式AI的安全使用。

理光免费发布内置自研安全防护功能的大型语言模型

1. 安全防护模型开发背景

2. 免费公开的目的

3. 关于安全防护模型

标签

评论

相关阅读

融合实践经验与生成式AI的“富士通AI驱动现代化服务”

OpenAI提出超智能社会的“AI权利”和“每周四天工作制”建议

社交媒体热议特朗普与AI版罗斯福总统对话：他真的以为是真人吗？