新浪新闻客户端

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC
2026年05月20日 18:48 新浪网 作者
avatar
枫叶群舞Puzza

  作者 | 博雯

  编辑 | 张洁

  泄密信息漫天飞了小半个月的Gemini Omni,终于在今天凌晨的谷歌I/O 2026大会正式亮相!

  不同于传言中的视频生成专用模型,也不是跟着Veo 3命名的“Veo 4”,谷歌DeepMind CEO Hassabis亲自登台宣布:

  “我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型。”

  也就是说,Gemini Omni是一个真正的“全能”大模型,可以接收任意形式的输入,生成任意内容,视频生成只是其中一部分。

  目前Gemini Omni已同步上线所有谷歌产品,AI Plus、Pro和Ultra订阅用户均可通过Gemini或谷歌AI视频创作平台Flow使用。

  “AI新榜”第一时间订阅了级别最高的谷歌Ultra会员,对Gemini Omni进行了一手实测。

  先说结论,有点拉。

  实测前后一致性:

  基本保持到位

  通过自然语言微调视频,以及在这样的多轮编辑后,仍能保持一致性,是此次Omni重点强调的亮点。

  在官方放出的案例中,原始视频是一位小提琴家在室内演奏。分别改变背后环境,切换镜头,甚至完全去掉演奏主体的小提琴后,演奏者的神态、动作、光影效果,细微的演奏手型,还有音乐,都还是完美适配新环境。

  不管是精细编辑的效果,还是画面主体的一致性效果,看上去相当惊艳。

  左右滑动查看

  于是在实测中,我们也先来一次环境与氛围上的替换。

  先输入提示词:俯拍视角,两辆车在一个十字路口相撞,其中是一辆蓝色的跑车,氛围惊险刺激。

  再进行一次精细的编辑和微调,提示词为:改为夕阳西下的金色时刻,并将蓝色的车改为红色的,两辆车相撞后喷射出彩带和气球,氛围轻松梦幻。

  可以看到,车辆颜色和光线环境确实是如实改变了,视频的整体结构和动态也基本保持了连贯,没有出现画面撕裂或失真。

  但一个很微妙的点是,对于“撞车”这个瞬间动作,Omni理解得并不好。

  两条视频中的两辆车都好像是在“故意”向对方开去,甚至在相撞的瞬间还刻意放缓了速度,调整了一下角度。

  怎么说呢,仿佛能看到Omni无形的大手在操控着两辆车完成用户的指令。

  其次,我们来检验Omni能否在动态运动中达成一致。

  标准是同一个角色在多角度切换中,其面部特征、衣服、道具乃至发型都理应保持稳定,不会出现“同一件衣服,换个角度颜色就变了”的Bug。

  输入提示词:中景推轨镜头,一位穿红色连衣裙的女舞者在老火车站跳现代舞,一个跳跃动作后切换为广角固定镜头,延续同一舞蹈动作,保持红裙和火车站背景的完全一致。

  这条视频的完成度还是比较让人满意的,舞者的动作连贯,身上那条丝质红色长裙的物理效果真实,镜头从中景切到广角固定镜头也比较丝滑。

  Omni还自动加上了一段背景音乐,虽然不算是非常具有艺术情绪,但也基本算是贴合舞蹈氛围。

  再进行一次微调,输入提示词:去掉背景音乐,只保留环境音,比如舞蹈动作同步的脚步声和裙摆摩挲声。

  这一次就有点问题了,视频前半段是能听到轻微的裙摆飘动和脚掌落地的声音的,但到了后半段,之前的背景乐不知为何又响了起来。

  接下来,再测试其对于复杂人物关系和位置的理解能力。

  标准是,在多个外貌、服饰各异的角色产生互动时,他们各自的特征并不会因为视角切换而错乱。

  输入提示词:过肩镜头,四五位外貌打扮皆不相同的科学家在实验室讨论全息投影,镜头慢慢旋转,注意保持所有人物的容貌和着装不变。

  也许是为了完美贴合提示词的“四五位外貌打扮皆不相同的科学家”,Omni也是贴心将给四位科学家男女老少,各色人种一应俱全。在旋转的镜头里,几位人物的外貌、服饰、声音和相对位置关系也基本保持一致。

  不过很可惜的是,视频到了后半段突然进行了一次相当生硬的镜头切换。

  编辑和微调也是此次官方放在最前面进行案例宣传的亮点之一。

  话不多说,直接拿来最近在韩网爆火的AI生成棒球观赛视频,再丢给Omni一张二次元小姐姐图片(来自谷歌官网演示),让它用图片替换原视频中的人物

  最后的结果呢……只能说是差强人意。

  Omni替换上去的人物,只在相对位置上与原视频保持了一致,但对于那种咬唇、眼神躲闪、发现被拍后抿嘴一笑的细微表情,几乎都没有表现出来。

  这种在细节生成上的不如意并非个例。

  我们通过提示词,生成了一位中年男人在暗室内对着镜子轻声说:“我知道是你做的,别装了”的视频。

  原视频的表现还是不错的,除了男人的中文口音稍微有点奇怪,他的口型与每个字基本上都是精确对应的,至于是否表现出了人性化的情绪,这个见仁见智。

  但接下来,在我们试图修改男人的台词时,Omni的电子脑不知为何就过载了。

  提示词:一位中年男人在暗室内对着镜子轻声说:“520又来了,节日快乐。”

  一开始是无法理解“修改台词”这样的描述,直接把新的台词当作字幕打在了视频下方;之后又是一半说原台词,一半说新台词;到最后,更是直接开始口胡了。

  光影倒是明亮了一些,表情也变成了微笑,只是一个男人一脸微笑地说“我知道是你做的,别装了”,BGM还是刚才那股阴森色的味儿,简直比原版还要诡异好吗!

  只能说,精细控制这块儿,Omni还得练练。

  最后是对于世界的理解。

  官方的说法是,Omni基于Gemini旗舰大模型,对于引力、动能和流体力学等物理规则的理解,以及对于世界历史、科学和数学的理解都进一步得到了提高。

  话不多说,直接上提示词:生成一条在连锁反应轨道上快速滚动的弹珠。

  这个效果还是比较惊艳的,Omni自己想了一套挺复杂的连锁轨道,期间涉及到重力、弹力、离心力等等物理规则,看上去都相当真实。

  不过在视频后半段出现了个Bug,一个小球冷不丁变成了两个。

  再来一个:一个球沿着一个U形轨道内壁来回滚动,最后停在了轨道最低点。

  这个效果就有点奇怪了。

  虽然确实是小球沿着U形管来回滚动并停在了最低点,但总觉得重力环境并不在地球,小球轻飘飘的,甚至好像还有点穿模。

  最后,我又丢了一条相当简洁有力的提示词过去:生成一段李世民和他老哥“玄武门对掏”的视频。

  嗯……虽然背后的“玄武门”的汉字有点问题,俩唐代人物的中文也似乎略带口音,但还是理解了“玄武门对掏”这个中文梗,让李世民李元吉哥俩进行了一次剑拔弩张的会面。

  这么看来,Omni的世界历史倒是还修得不错。

  在今天这场大会之前,Omni的消息就传了很久了。

  最早是在5月初,有个用户在Gemini的视频生成页面发现了一行不起眼的小字:"Powered by Omni",顿时一石激起千层浪。

  海内外技术圈都在讨论:这个Omni到底是什么?是去年的谷歌 I/O 2025上的Veo 3的下一代Veo 4,还是一个全新的多模态大模型

  这也是为什么在前期的各路消息里,一会儿是Gemini Omni, 一会又是Veo 4。

  而到了5月11日,一条“教授黑板推公式”的Omni内测视频又在X上疯传,浏览量在短短几天内就超过240万。

  视频在短短10秒内连续切了数次镜头,有教授的背影,侧脸,还有粉笔写公式的特写,配合粉笔的沙沙声,黑板上完全正确的公式,又将大家的期待值拉到了一个新的高度。

  当时的爆料是,Omni已经完全把镜头语言和剪辑深度技能给内化了,多视角镜头切换、自带原生BGM,“直接就能出一条成片”。

  但到了今天,Gemini Omni真的千呼万唤始出来,效果却是褒贬不一。

  看来还是要期待一下Seedance 2.1了,虽然什么时候出还是个大大的问号。

   欢迎分享、点赞、推荐

   一起研究AI

点击进入专题:
Google I/O 2026
特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
来自于:广东
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2026 SINA Corporation

All Rights Reserved 新浪公司 版权所有