
在上月底举办的三星 Galaxy S26 发布会上,三星和谷歌官宣将在 Galaxy S26 上首发基于 Gemini 的 Screen Automation(屏幕自动化)的能力。
浅易来说,等于 Gemini 不错平直在手机屏幕上操作应用:掀开 APP、识别屏幕、点击滑动、输入翰墨……完成一连串 UI 操作,临了再把阐明方法交给用户。

图片起原:三星
没错,听起来就和努比亚 M153(坊间俗称「豆包手机」)上的豆包手机助手一样,齐是能替代东说念主类在手机上进行「代理」操作,完毕一句话点外卖、叫车、网购等需求。
从外洋媒体和论坛的响应来看,这项功能终于在最近的测试版更新中上线了。
不外咱们也发现,谷歌并莫得全盘学习豆包手机助手的作念法。固然在本领完毕旅途上相似基于 GUI 的 Agent,但 Gemini 会基于 Android 开启一个土产货的编造沙盒,同期还主动把握了首批敞开 Gemini「操作」的 APP,仅限少数一批应用。
这种贬责模式与国内厂商昭着不太一样。以致不错对比字节的豆包手机助手和阿里的千问,谷歌遴荐了一条看起来既激进、又保守的路子。
让 AI 操作系统,而不是选用手机
只看功能名义,Gemini 的「屏幕自动化」很容易被主张为另一种「豆包手机助手」。它相似不错替你点外卖、叫车、下单,看起来也像一个能替东说念主操作手机的 AI 代理。
但如果把视角往下再挖一层,就会发现谷歌的决议其实全齐不是一趟事。
豆包手机助手的逻辑很浅易:AI 读取屏幕像素,像东说念主眼一样识别按钮和输入框,然后模拟手调换击。这种模式最大的优点等于通用——表面上任何 APP 齐能操作,因为 AI 看到的只是屏幕。
Gemini 领路更「保守」。在现实实行任务时,Gemini 并不会平直在你的手机桌面上操作应用,而是会在 Android 系统里开启一个土产货的编造沙盒窗口,让 AI 在这个环境里运行办法 APP。
扫数这个词过程是可见的,用户不错随时远隔任务,也不错在职何一步选用操作。

图片起原:Android Central
浅易来说,Gemini「屏幕自动化」在家具定位上并不是一个不错粗拙操控手机的全能代理,而是一个被系统严格把握的自动化能力。
谷歌还主动把握了第一批扶植自动化的应用数目。目下敞开的主如果打车、外卖和餐饮类处事,仅扶植 Lyft、Uber、GrubHub、DoorDash、Uber Eats 和星巴克。
也把握了「用户领域」。目下除了三星 Galaxy S26 系列照旧不错在测试版中体验,谷歌也仅权术了 Pixel 10 系列扶植,同期 Gemini 免用度户每天仅有 5 次使用额度、Plus 会员 12 次、Pro 会员 20 次、Ultra 会员 120 次。
这里既有算力的考量,也在于用户对 AI「乱动手机」的担忧,尤其是在泰西市集。是以谷歌作念了权限阻拦、要道方法必须要用户手动操作、不错及时中断 AI 操作等。
但说到底,这只是过渡阶段,谷歌的策划毫不啻是让 Gemini 只是能够操作几个特定 APP。

图片起原:谷歌
许多东说念主留意到 Gemini 的 GUI 操作能力,却忽略了 Android 在系统层面正在发生的一件事情。
就在三星 Galaxy S26 系列发布会前夜,谷歌官方发布了一篇博文名为《智能操作系统:让 AI 代理对安卓应用更有匡助》,并发挥推出了一套新的应用能力接口体系——AppFunctions,允许 APP 主动向系统声明我方不错被 AI 调用的功能。
举个例子,一个外卖 APP 不错告诉系统:扶植搜索餐厅、添加商品、提交订单这些能力。当用户对 Gemini 说「帮我点一份披萨」时,AI 并不一定需要逐渐点击界面,它不错平直调用这些能力完成任务。
如果把这套机制主张成 AI 的「函数调用」,事情就变得超越明晰了。在谷歌的瞎想里,AI 代理其实有两条旅途不错实行任务,一种是通过系统接口平直调用应用能力,另一种才是通过识别屏幕界面来进行 GUI 自动化。
前者后果更高、稳重性更好;后者则是为了兼容那些莫得适配新接口的应用。
这意味着 Gemini 将来的诱导自动化能力,本色上并不是单纯的「AI 看屏幕操作手机」,而是一种系统 API 与 GUI 夹杂的架构。

AppFunctions 的应用示例,图片起原:雷科技
这个各异听起来有点本领化,但它背后的家具逻辑其实超越浅易。比较豆包手机助手让 AI 像东说念主一样使用手机,谷歌想作念的事情是让 AI 像系颐养样转变应用。
当 AI 只是读取屏幕像素时,它历久站在系统以外,只可师法东说念主的操作逻辑;但一朝 AI 被放进操作系统里面,它就不错平直诱惑应用之间的能力。
从这个角度看,Gemini Screen Automation 的简直办法好像并不是点外卖、叫车这些场景。谷歌简直想竖立的,是一种新的 Android 运行逻辑和生态。从这里启程,咱们也能在一定进度上剖析,为什么谷歌要和高通联手推动「安卓电脑」(非 Chromebook)。
也证明了为什么 Gemini 的决议看起来既激进又保守。
激进的场所在于,它试图把 AI 造成 Android 的转变中心;保守在于,谷歌并不缱绻让 AI 粗拙选用扫数这个词手机,而是通过系统接口、权限把握和应用白名单,一步一步激动这种变化。
比较「全能 AI 代理」的想象,开云·体育这种路子昭着更慢,也更克制。但关于一个领迥殊十亿诱导的操作系统来说,谷歌可能也莫得太多激进试错的空间。
豆包向左,千问向右,Gemini 走中间
比较谷歌在手机上的作念法,昨年底亮相的豆包手机助手遴荐了最浅易、也最激进的一种模式:让 AI 像东说念主一样使用手机。
在这套决议里,AI 读取屏幕像素,识别按钮、输入框和页面结构,然后模拟手调换击完成操作。岂论是点外卖、比价购物照旧下单支付,AI 齐是在手机界面上一步步实行。
这种模式最大的上风等于通用。因为 AI 看到的只是屏幕,它不需要任何 APP 的接口扶植,也不需要平台授权。表面上,独一是东说念主能操作的应用,AI 齐不错完成相似的操作。
这亦然为什么许多东说念主第一次体验豆包手机助手时,会以为它像一种「简直的 AI 手机」。

图片起原:豆包
但问题也相似领路。当 AI 不错读取扫数这个词屏幕并操作扫数应用时,权限和安全问题就不成幸免。同期,许多互联网平台也并不接待这种自动化看成,因为它绕过了平台自身的进口和推选体系。
浅易说,豆包的路子本领上超越平直,但也自然会和应用生态产生摩擦。
比较之下,阿里的千问走的是另一条念念路,期骗阿里我方的处事生态,让 AI 成为一个转变中心。在这套体系里,用户的一句话会被拆解成具体任务,然后辞别调用淘宝、支付宝、高德、飞猪等处事来完成。
比如搜索商品、下单支付、权术路子,齐是平直调用简直业务能力,而不是模拟界面操作。因为扫数操作齐发生在生态里面,AI 不需要绕过应用权限,也不会触发平台风控,又因为平直调用处事接口,实行后果每每也更高。

图片起原:雷科技
但问题相似明晰:生态鸿沟。千问能够转变的处事,本色上照旧阿里系应用。一朝用户需求涉过甚他平台,能力就会领路下落。
从这个角度看,豆包和千问其实代表了两种超越典型的 AI 代理旅途。前者试图让 AI 选用手机本人,追求的是通用能力;后者则通过生态整合,让 AI 选用处事经由,追求的是业务深度。
而谷歌的 Gemini,某种进度上站在二者之间。在刻下阶段,Gemini 依然保留了 GUI 自动化能力,这意味着它在必要时也不错像豆包一样,通过识别界面来操作应用。但与此同期,谷歌又在 Android 系统里引入了新的应用能力接口,让 APP 主动向系统敞开不错被 AI 调用的功能。
如果应用扶植这些接口,Gemini 就不需要再逐渐点击界面,而是不错平直调用应用能力完成任务。换句话说,谷歌的决议其实是一种夹杂旅途:
系统接口优先,GUI 自动化兜底。
从短期来看,这种模式昭着莫得豆包那样惊艳,也不像千问那样能够连忙整合锻练生态。但它的公正在于,既幸免了和应用生态的正面破损,又保留了满盈的通用性。
写在临了
把视角再拉远少量,其实不难主张三种路子为什么会分化成目下这么。
字节莫得操作系统,也莫得土产货生涯生态,是以只可让 AI 平直选用手机;阿里领有雄壮的处事体系,于是让 AI 去转变我方的业务集结;而谷歌简直领有的,则是 Android 这个掩盖数十亿诱导的操作系统。
因此,Gemini 的办法从一开动就不是作念一个更强的手机助手kaiyun,而是把 AI 造成系统的一部分,让 Android 从「运行应用的平台」徐徐造成「转变应用的智能系统」。从这个角度看,Gemini 的克制并不是保守,而更像是一种平台级公司的势必遴荐。
B体育官方网站首页入口
备案号: