
快科技3月19日音尘,小米夜深炸场发布了三款模子,其中包括面向Agent期间的全模态基座模子——Xiaomi MiMo-V2-Omni。
该模子专为实验宇宙复杂多模态交互与实践场景打造,从底层构建了文本、视觉、语音和会的全模态基座,以息争架构深度绑定“感知”与“当作”,原生具备多模态感知、器用调用、函数实践及GUI操作才智,可无缝接入各样Agent框架,大幅裁汰全模态Agent的落地门槛。
在认真发布前,该模子早期测试版块以「Healer Alpha」为代号匿名上架大家最大API团员平台OpenRouter,未作念任何宣传便收场调用量当然攀升至平台前哨,还在OpenClaw测评榜单PinchBench上拿下等分第一,才智取得用户与专科测评的双重招供。
MiMo-V2-Omni领有对标外洋前沿的全模态感知才智,是高效实践的坚实基础。
-音频和会上,援助环境声分类、多谈话东说念主差别等功能,可深度和会超10小时伙同长音频,详细发达特出Gemini 3 Pro,置身面前最强音频和会基座模子之列。
-图像和会上,具备刚硬的多学科视觉推理和复杂图表分析才智,特出Claude Opus 4.6,贴近Gemini 3 Pro等顶尖闭源模子水平。
-视频和会上,援助原生音视频衔接输入,依托改动预磨砺时期,领有出色的情境感知与将来推理才智。
同期,开云kaiyun(中国)体育官网该模子收场了从和会到完成任务的智能体才智升级,能跨模态和会复杂环境,自主制定并实践盘算推算,遇格外时及时修正战术,最结尾到端请托圆善结尾。
在确实数字环境交互的评测基准中,其发达并列Gemini 3 Pro,前沿感知才智与原生当作才智酿成复合上风,且在纯文本智能体任务上也保抓着高度竞争力。
流程一周迭代优化,模子的全模态感知和智能体当作才智更踏实,在平常分娩力场景中展现出繁多后劲。
当今MiMo-V2-Omni已认真洞开API劳动,援助256K险峻文长度,订价为输入0.4好意思元/百万tokens、输出2好意思元/百万tokens,斥地者可通过指定平台接入;同期模子衔接OpenClaw、OpenCode等五大Agent斥地框架团队,为大家斥地者提供为期一周的限时免费接口援助。
该模子在多场景下的才智发达亮眼,跨模态层面能深度解读电影片断的隐喻与热诚,长音频层面可精确索取数小时访谈的中枢论点与逻辑头绪。
结合OpenClaw框架还能像真东说念主相似操控浏览器,完成选品比价砍价下单、制作并发布短视频等复杂操作,遇网页报错、多标签切换等问题可自主搞定。
在智能办公场景,模子与金山办公合营接入WPS Office开云·体育,可凭证辅导平直生成高质料Word、结构化Excel、范例排版PDF及圆善PPT,跳出对话机器东说念主适度,切实提高平常职责成果。
金年会(JinNianHui)体育官网
备案号: