
日本国家推出了一款专门面向AItuber(AI虚拟主播),注重闲聊性能设计的日语专用8B参数语言模型——“ArrowCanaria-Llama-8B-SFT-v0.1”,现已在Hugging Face平台公开。
目前许多日语大型语言模型(LLM)往往表现出翻译腔或模板化的僵硬回复,而ArrowCanaria-Llama-8B-SFT-v0.1则致力于打造能够与观众自然闲聊的AItuber模型,能够以自然流畅的日语进行人性化回答。
该模型基于日本国家的“tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5”,通过日语合成小说数据集进行预训练以扩展领域知识,随后采用Chat Vector合并技术恢复对话能力。最终,利用超过17.5万条合成数据集,经过三阶段的课程式监督微调(SFT)完成模型构建。
预期应用场景包括:直播中与观众进行闲聊和评论互动的AItuber或AI虚拟主播;能够用自然日语进行日常对话和心理咨询的聊天机器人;扮演角色进行对话(角色扮演)和创作辅助;以及涵盖知识问答、推理和工具调用等多种任务的通用助手。


