#多模态模型

按标签聚合查看文章内容。

日本理光推出多模态大规模语言模型,实现企业隐性知识AI化AI资讯

日本理光推出多模态大规模语言模型,实现企业隐性知识AI化

日本理光公司完成了具备高精度推理能力的多模态大规模语言模型(Reasoning LMM)基础模型“Qwen3-VL-Ricoh-32B-20260227”的开发。该模型能够通过多阶段推理,准确理解包含图表的复杂文档。 该模型基于阿里巴巴云的“Qwen 3.0-VL”,并在日本经济产业省和新能源产业技术综合开发机构(NEDO)推动的国内生成式AI开发力强化项目“GENIAC”第三阶段中开发完成。理

AI资讯

OpenRouter发布匿名模型Hunter Alpha和Healer Alpha:参数高达1万亿,支持多模态输入

OpenRouter平台近日悄然上线了两款神秘新模型:Hunter Alpha和Healer Alpha,引发了社区的广泛关注。 据泄露信息显示,Hunter Alpha拥有惊人的1万亿参数和10万令牌的超长上下文窗口,支持多模态输入(输出为文本),其输出速度约为每秒48个令牌。该模型针对智能代理场景进行了优化,擅长长期规划、复杂推理以及连续多步骤任务执行,被定位为前沿的智能代理工作流工具。 另一

Replit Agent 4:知识工作代理的新篇章AI资讯

Replit Agent 4:知识工作代理的新篇章

Replit在过去六个月内估值飙升至90亿美元。 作为创始人,Amjad Masad和他的团队对当前技术趋势的敏锐把握令人钦佩。或许你未曾深入了解Replit,比如他们2015年的《大师计划》或纪录片,但现在的Replit已远非两年前那个“附带AI功能的编码平台”。 如今,随着软件工程问题基本解决,Replit正向上游拓展,打造一个集画布、应用、网站、幻灯片、视频等多功能于一体的完整生产力套件。这

Meta全新AI模型助马克·扎克伯格跻身顶尖行列AI资讯

Meta全新AI模型助马克·扎克伯格跻身顶尖行列

马克·扎克伯格在社交媒体上表示,Meta的目标是打造不仅能回答问题,还能作为代理为用户执行任务的AI产品。这位亿万富翁乐观地认为,这将推动一波创造力、创业、增长和健康的浪潮。 Meta最新推出的Muse Spark显然是对其去年4月发布的Llama 4的重大升级。Llama 4在科技界被视为表现平平,未达预期。 Muse Spark现已通过meta.ai和Meta AI应用提供使用。与Llama不

科技行业的最后四种职位AI资讯

科技行业的最后四种职位

在人工智能变革下,科技行业的组织架构和职位角色正在发生深刻变化。本文探讨了后AI时代白领科技岗位的新模型,并回顾了近期AI领域的重要技术进展。

DeepSeek 能不能生成图片?一文说清楚AI教程

DeepSeek 能不能生成图片?一文说清楚

很多人搜「DeepSeek 生成图片」却越看越糊涂:有 DeepSeek 聊天机器人、DeepSeek API,还有 Janus、Janus-Pro 等多模态项目。本文用通俗方式讲清:普通 DeepSeek Chat 侧重文本和推理,而 Janus-Pro 才是支持图像生成的模型家族,并给出三种实际可用的图片生成方案、适用场景与风险提示。

谷歌Gemini Omni:将图像、音频和文本转化为视频,这仅仅是开始AI资讯

谷歌Gemini Omni:将图像、音频和文本转化为视频,这仅仅是开始

三年前,谷歌推出了Gemini,目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频,并能生成任意格式内容的单一神经网络。 如今,在谷歌I/O开发者大会上,谷歌迈出了实现这一目标的重要一步,发布了Gemini Omni。这是一系列多模态模型,谷歌CEO桑达尔·皮查伊表示,Gemini Omni能够“从任何输入创造任何内容”。 Gemini Omni首先聚焦于视频生成。用户可以将图