欢迎光临
我们一直在努力

千问上线Qwen3.5-Omni 具备全模态感知与生成能力

智通财经APP获悉,3月30日,千问宣布上线Qwen3.5-Omni。这是Qwen最新一代全模态大模型,支持文本、图片、音频、音视频理解。结构上,Qwen3.5-Omni的 Thinker与Talker 均采用 Hybrid-Attention MoE 架构。Qwen3.5-Omni 系列包含Plus, Flash, Light三种尺寸的Instruct版本,支持 256k 长上下文,模型支持超过 10 小时的音频输入及超过 400 秒的 720P (1 FPS)音视频输入。模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练,该模型展现出卓越的全模态感知与生成能力。目前可通过Offline API和Realtime API进行体验。

据介绍,千问着重加强了Qwen3.5-Omni的交互能力。对比Qwen3-Omni ,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,能够支持113种语种和方言的语音识别和36种语种和方言的语音生成,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。

Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。

 拔打报修电话
赞(0) 打赏
未经允许不得转载:313啦实用网 » 千问上线Qwen3.5-Omni 具备全模态感知与生成能力
分享到: 更多 (0)

实用网址,实用软件,实用技巧,热门资源分享-313啦实用网

家电维修服务网家电维修报修

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!