想象一下这个场景。
你在备忘录里写下本周的购物清单。长按电源键,说一句话,手机自动打开外卖 App,按照清单逐条建好购物车,等你确认付款。
不是 Siri 听完你的指令然后要你再手动操作五步。是手机直接把事办了。
这不是概念视频。这是谷歌在 2026 年 5 月 12 日的 Android Show 上正式发布的功能,Google I/O 2026(5 月 19 日)上会进一步亮相完整细节。
从 iPhone 2007 年定义触屏交互到现在,将近二十年。Android 正在尝试重新定义下一个交互范式:不是触摸,不是语音指令,而是意图委托。你告诉手机你想要什么结果,手机自己想办法。
Gemini Spark 是什么:从助手到操作系统级智能体
先把两个名字说清楚,很多报道混着用,其实是两个层次。
Gemini Intelligence 是谷歌对 Android AI 层的整体改造框架,涵盖智能表单填写、AI 生成 Widget、浏览器自动操作、Gboard 语音输入降噪整理、Android Auto 上下文感知等一系列功能。你可以把它理解成 Android 的"AI 操作层"。
Gemini Spark 是其中最激进的组件,专门负责"自主代理"部分,即在没有用户逐步手动操作的情况下,在后台跨 App 独立完成多步骤任务,并主动汇报结果。
区别在哪,用一个对比来说。
你打开 Gmail,Gemini Intelligence 可以帮你把邮件分类、建议回复措辞。Gemini Spark 可以在你没打开 Gmail 的时候,主动扫描收件箱,清掉垃圾邮件,把本周有重要会议的邮件摘要整理好,然后在通知栏告诉你:“收件箱已整理完毕,找到 3 封需要今天回复的邮件。”
一个是辅助,一个是代劳。
根据 9to5Google 和 Android Police 的报道,Gemini Spark 目前已确认的能力如下:
| 能力分类 | 具体功能示例 | 状态 |
|---|---|---|
| 邮件管理 | 自动清理垃圾邮件、整理重要邮件 | 已确认 |
| 会议准备 | 开会前从 Docs/Drive 抓取相关文件并整理摘要 | 已确认 |
| 信息整合 | 生成个性化每日新闻和工作简报 | 已确认 |
| 购物执行 | 读取清单直接在外卖或电商 App 建购物车 | 已确认 |
| 重复任务自动化 | 用户创建"技能",Spark 定期自动执行 | 已确认 |
| 跨设备扩展 | 控制 Chrome 浏览器、访问电脑本地文件 | 泄露未官宣 |
“技能”(Skills)这个设计值得单独说一下。你可以教 Spark 你喜欢的周报格式,它下次就会按照你的要求,自动从 Docs 和 Drive 里抓数据,生成报告,放到指定位置,不需要你每次都重复指令。这不是预设脚本,是可以学习你个人偏好的自适应自动化。
Gemini Spark 的核心承诺:让手机从被动响应变成主动代劳。你定义目标,它负责路径。
跨 App 任务执行的技术实现与安全边界
Gemini Intelligence 能跨应用操作,背后靠两层技术撑着。
第一层:屏幕理解能力
这不是截图发给模型问"你看到什么"那种方式。是系统级的实时内容解析,Gemini 作为 Android 的系统服务运行,可以实时读懂当前屏幕上的结构化信息,包括你在哪个 App 里、屏幕上有什么文字、有哪些可以交互的按钮。
实际效果是这样的:你在浏览一个餐厅菜单,长按电源键问一句"帮我订两份宫保鸡丁外卖",Gemini 知道你在看菜单,知道是哪家餐厅,知道应该去哪个外卖 App 下单,不需要你再说"打开美团,搜索这家店,选这道菜"。
谷歌在 Android Show 上演示了另一个例子:用户在备忘录里有一份购物清单,长按电源键说"帮我从清单里建购物车",Gemini 直接从备忘录读取清单内容,跳转到 DoorDash,完成购物车建立。整个过程用户没有手动切换任何一个 App。
第二层:AppFunctions API
这是给开发者准备的接入接口。第三方 App 通过声明式 API,明确告诉 Android 系统"我这个 App 能执行哪些操作",Gemini 在处理用户任务时就能调用这些预注册的能力。
目前已经完成 AppFunctions 接入的 App 包括:
- Uber(叫车)
- DoorDash(外卖)
- OpenTable(餐厅预订)
谷歌官方目标是,AppFunctions 到 2026 年底覆盖超过 2 亿台 Android 设备。
对第三方开发者来说,接入的门槛不高。核心工作是声明一份"意图清单",告诉 Android 你的 App 能处理哪些类型的任务。Gemini 会在合适的时机主动调用,用户不需要知道背后是哪个 App 在跑。
安全边界
让 AI 代替你操作手机,最敏感的问题是权限和隐私。谷歌目前公布的规则是:
| 操作类型 | 安全限制 |
|---|---|
| 付款操作 | 必须用户二次确认,Spark 不能自动完成支付 |
| 文件读写 | 仅限用户明确授权的目录 |
| 后台运行记录 | 用户可随时在设置里查看和撤销 Spark 的操作历史 |
| 数据隐私 | 谷歌声明任务数据不用于模型训练(待第三方验证) |
| 敏感 App | 银行、医疗类 App 需额外授权才能被 Spark 访问 |
Android 17 还包含一个值得开发者关注的更新:设备端 Gemini Nano API 向第三方开发者开放。搭载这个功能的 App 可以在不联网、不调云端接口的情况下做本地 AI 推理,延迟更低,也不需要支付 API 调用费用。这对做离线功能或隐私敏感场景的 App 来说是真实的机会。
为什么要抢在苹果前面:时间窗口分析
这里有一个时间线,把三个日期对齐来看:
- Google I/O 2026:5 月 19 日(已定)
- Gemini Intelligence 首批推送:2026 年 6 月下旬(最新 Samsung Galaxy 和 Pixel)
- 苹果 WWDC 2026:6 月 8 日(发布 iOS 27 和 Siri 2.0 计划)
谷歌的产品先亮相,功能更快落地到用户手里。但这不是最关键的。
关键是:苹果的 Siri 大改版已经延期两年了。
据 AppleInsider 和 MacWorld 的报道,iOS 27 的 Siri 2.0 改造计划至少经历了两轮大延期。即便在 WWDC 2026 上正式宣布,发布时也仍然是 Beta 状态,完整稳定版估计要到 2027 年初。
而且,据报道苹果正在把 Siri 底层切换到基于 Gemini 的大语言模型来实现现代化改造。也就是说,苹果要用谷歌的模型修复自己的语音助手。(这一细节尚待苹果官方确认。)
这对谷歌来说是一个相当难得的时间窗口。
用户习惯一旦形成,很难迁移。谷歌现在做的,是在苹果 AI 改版真正落地之前,让数亿 Android 用户先养成"跟手机说话让它办事"的使用惯性。
从历史上看,这一招有效。2010 年代初,Siri 领先 Google Assistant 近两年,结果用"设闹钟、查天气"把语音助手的使用习惯定义给了 iOS 用户,Google 后来用了很长时间才追平。
现在轮到谷歌反过来先走一步。时间窗口大约是 6 到 18 个月,如果 Gemini Spark 能在这段时间内顺利落地、口碑稳住,苹果的 Siri 改版就不是"并驾齐驱",而是"从落后状态追赶"。
当然,这个窗口能不能真正用好,取决于 Gemini Spark 的实际落地质量,不是发布会 PPT 的质量。
对用户和开发者分别意味着什么
这两个群体面对的挑战截然不同。
对普通用户:信任是最大门槛
Gemini Spark 最大的挑战不是功能够不够强,是你敢不敢真的让它做事。
把邮件整理交给 AI,大部分人可以接受。让它主动帮你管理 Drive 文件,有点犹豫。让它代你在外卖 App 建购物车,好,但万一下错了怎么办,谁负责?
谷歌的策略是循序渐进。先从低风险高频任务开始建立信任,再逐步扩展到更敏感的操作。这和第一代语音助手的路子一样:先用"查天气、设闹钟"把用户带进来,再慢慢拓展。
首批推送时间表如下:
| 阶段 | 时间节点 | 覆盖范围 |
|---|---|---|
| 第一批 | 2026 年 6 月下旬 | 最新 Samsung Galaxy 旗舰、Google Pixel 系列 |
| 第二批 | 2026 年底 | Wear OS 手表、Android Auto、Android XR 眼镜 |
| 扩展计划 | 2027 年 | 笔记本电脑(Chrome 浏览器扩展) |
地区和系统要求:首批限美区,最低 Android 12。
对开发者:机会和结构性风险并存
AppFunctions 是一个实实在在的机会。你的 App 注册了相关能力之后,Gemini 在处理用户任务时可以主动调用你,用户不用刻意找到你的 App,任务就能通过你的服务完成。
但这里有一个结构性的两难。
如果用户越来越习惯"跟 Gemini 说,让它调 App 完成任务",他们主动打开 App 的次数会减少。屏幕停留时间减少,App 内的交叉引导少,广告曝光也少。AppFunctions 给你带来了任务调用,但可能分走了应用内体验的流量。
这不是假设,这是内容网站在 Google 引入 AI Overviews 之后已经经历的问题,现在轮到 App 层了。
对于 Android 开发者,2026 年下半年有几件事值得重点跟进:
- Android 17 Gemini Nano API:设备端推理正式对外开放,适合做离线 AI 功能的 App
- AppFunctions SDK:公开接入,目前支持操作类型有限,计划持续扩展
- Gemini Spark 插件生态:声明 App 能力后被 Gemini 主动调用的机制,类似 ChatGPT Plugin,但集成在系统层
如果你在做 Android App,现在需要想清楚一件事:你的核心价值是应用本身的体验,还是它能完成的具体任务?只有前者才能在 AI 调度层时代让用户有理由主动打开你。
写在最后
Gemini Spark 代表的不是一个功能更新,是一个范式切换。
从"我打开 App,在里面完成任务",到"我表达意图,系统跨 App 替我执行",中间隔着的不只是技术距离,是用户习惯重建和信任积累的过程,这个过程需要时间,也需要产品真的够用。
谷歌现在做的,是用可落地(哪怕还不完美)的功能,在最关键的时间窗口里推动这个转变。
手机从工具变成助手,这件事已经开始了,不是在概念视频里,是在 6 月下旬你手机的一次系统更新里。
延伸阅读
CNBC: Google races to put Gemini at the center of Android before Apple’s AI reboot
9to5Google: Gemini Spark insight — what the agent can actually do
Android Developers Blog: Building for the Intelligence System on Android