ENZHKO
Last updated on

当浏览器和操作系统成为 Agent 界面


Google 最新的 Gemini 发布很容易被理解成一次 Android 功能更新。

更值得关注的信号在别处。Google 正在把 Gemini 的行动能力放进两个普通用户每天工作的表面:浏览器和操作系统。按照 Google 自己的说法,Android 正在从 operating system 转向 “intelligence system”。Gemini Intelligence 被描述为可以自动化 multi-step tasks,帮助完成预订和购物类流程,摘要网页内容,比较信息,并在 Chrome 中填写复杂表单。[1]

重点不是 Gemini 能不能摘要网页。网页摘要已经很常见。更重要的是,Google 正在把 Chrome 和 Android 视为 Agent 行为应该发生的位置。

这让 Gemini 进入了和 Claude for Chrome、Codex Chrome、OpenAI Operator 相同的大方向。产品形态不同,但信号相似:Agent 正在离开孤立的聊天框,进入用户已经在阅读、点击、登录、比较、购买、构建和验证的工作表面。

Google 实际发布了什么

Google 将 Gemini Intelligence 描述为 Android 上更 proactive 的 AI layer。官方文章说,Gemini 将来到 Android 设备上,用于 “automate complex tasks, summarize web content, and simplify form filling”。文章还提到 Rambler,可以把自然说出的想法整理成更清晰的消息;也提到用自然语言创建 custom widgets。[1]

对 Agent 讨论来说,Chrome 细节最关键。Google 表示,用户可以在 Chrome 中使用 Gemini 来摘要内容、比较信息、填写复杂表单。[1]

这已经很像 browser agent 的任务列表。它从阅读和摘要开始,但很快进入比较和 form completion。这类任务不只是生成答案。它要求 assistant 理解页面,在 workflow 中工作,并帮助用户完成实际动作。

Google 对 Android 的定位也值得注意。Android 从 operating system 走向 intelligence system 当然有营销表达,但它仍然有战略含义。Google 正在说,手机不只是运行 app 的地方,也应该成为 proactive execution environment。[1]

为什么 Chrome 是自然的 Agent 表面

现代数字工作的大部分都发生在浏览器里。

研究、购物、旅行预订、客服工单、仪表盘、内部 admin tool、表单、文档、Web app、SaaS、邮件、CRM、checkout flow 都在浏览器中。聊天模型可以解释用户应该在页面上做什么。理解浏览器的 Agent 可以直接在现场帮助完成工作。

这解释了为什么 Chrome 不断出现在 Agent 产品中。

Claude for Chrome 把 Claude 放进用户的 Chrome side panel,使其能够读取页面、点击、导航,并跨多个 tab 工作。Codex Chrome 让 OpenAI 的 coding agent 在任务需要 Gmail、Salesforce、LinkedIn、内部工具或产品验证等登录态浏览器 context 时使用 Chrome。[2][3]

Gemini 的 Chrome 方向更宽,也更面向消费者。它不是从 coding agent 出发,而是从浏览器和手机出发。底层逻辑仍然相似:Agent 需要靠近任务发生的页面。

Android 让信任问题变得更大

OS layer 比浏览器 extension 更强。

浏览器 Agent 可以看见网站并在其中行动。OS-level assistant 可能连接 app、通知、消息、widget、语音输入、设备设置和本地 context。这会带来更多用处,也会提高信任要求。

Google 说 Gemini Intelligence 会让用户保持 private 和 in control。[1] 这应该被视为公司声明,而不是已经验证的结果。真正的产品问题是:系统能否清楚说明 Gemini 可以访问什么、什么时候可以行动、哪些动作需要确认。

这时与其他 browser agent 的比较很有帮助。Claude for Chrome 和 Codex Chrome 都把 permission design 放在产品中心。用户需要知道哪些网站被允许,Agent 什么时候可以行动,以及登录会话或敏感页面内容会如何被处理。[2][3]

Android 在更大范围内提出同样的问题。当 Agent 成为操作环境的一部分时,permission design 就不再是设置页里的附加项,而是产品价值的一部分。

比较的重点不是选赢家

这里有用的比较不是模型排行榜。每个产品都把 Agent 行为放在不同表面。

产品或表面Agent 所在位置主要任务形态信号
Gemini IntelligenceAndroid 和 Chrome日常手机/浏览器任务、表单、购物或预订类流程Google 想把 OS 和浏览器变成 Agent 界面
Claude for Chrome用户的 Chrome browser阅读、点击、导航、填写表单、跨 tab 工作assistant 成为 browser operator
Codex Chrome连接到 Chrome 的 Codex需要登录态 Web context 的编码和工作任务coding agent 成为 workflow agent
OpenAI Operator / ChatGPT agent browseragent-controlled browser environment远程浏览器任务执行,以及敏感步骤的用户 handoffAgent 拥有自己的浏览器表面
Hermes/OpenClaw 式 runtimeAgent tool environmentbrowser、terminal、files、messaging、scheduling 的组合browser control 成为更大 agent stack 中的执行工具

这个图比问哪个产品最好更有用。Gemini 的优势是 platform placement。Claude 的优势是 assistant 与浏览器的近距离结合。Codex 的优势是与 coding 和 work automation 的连接。Operator 更接近隔离的 agent browser model。Runtime 型 Agent 则把 browser control 当作众多工具之一。

共同方向很清楚:浏览器正在成为 Agent 的执行表面。

Reddit 反应说明了什么

Reddit 不能用来验证产品主张,但可以用来观察用户焦虑。

围绕 Gemini 在 Chrome 中摘要页面的 r/Android 讨论呈现出可预期的分裂。一些用户强烈反感设备或 Chrome 中出现更多 Gemini 功能。另一些用户质疑它的实用性:为什么不自己快速浏览页面?也有人反驳说,如果功能集成在已有的 Gemini 或 AI Core 基础设施中,就不一定是额外 bloat。[4]

这个反应很重要。Google 正在把 Gemini 放进默认表面。功能越集成,一部分用户越可能把它看成 platform bloat,而不是可选帮助。

OpenAI Operator 的相邻 browser-agent 讨论也显示了另一个压力点。在一个 r/ChatGPTPro thread 中,用户认为 Operator 有潜力,但很慢、不稳定,还没有真正节省时间。一位用户说自己尝试了几个 use case,但因为 Agent 没有充分理解任务而放弃。另一位用户认为,短期内窄范围、更 deterministic 的 Agent system 可能比宽泛的 browser agent 更有用。[5]

OS-level AI assistant 还会引发信任和自主行动边界问题。一个高参与度 r/Android thread 声称 Gemini 在缺少足够用户确认的情况下发起了 emergency call。这个 thread 不应被当作这次 Gemini Intelligence 发布的已验证证据。它更适合作为 sentiment signal:当 assistant 靠近 phone-level authority 时,用户会更敏感地关注 action boundary、consent 和 disclosure。[6]

整体模式相当一致:

  • 用户对 Agent 完成真实工作有兴趣;
  • 执行缓慢或不稳定会很快消耗耐心;
  • 当 AI 被推入默认表面时,反感会增加;
  • 涉及登录会话、表单、phone action 或 personal data 时,用户需要清晰边界。

Gemini Intelligence 最终也会被这些标准评估。

真正的竞争是 interface authority

Agent 竞争的下一阶段不只是哪个模型回答得更好。

更重要的问题是模型被允许在哪里行动。

聊天框里的模型拥有 conversational authority。Chrome 中的模型拥有页面和 workflow authority。coding agent 中的模型拥有 repository 和 tool authority。Android 中的模型接近 device-level authority。每一步都会增加有用性,也会增加风险。

Google 这次发布的重要性在于,它把 Agent 行为推向日常 OS/browser layer。如果消费级 Agent 想从演示走向真正有用,大概率必须进入这些位置。浏览器是人们比较信息和填写表单的地方。手机是人们协调消息、app、旅行、购物和日常任务的地方。

不过 platform placement 本身不能保证产品成功。好的 Agent 表面至少需要三件事:

  1. 可靠完成任务。 用户不会为了基本 workflow 长时间看管一个缓慢的 assistant。
  2. 狭窄且可理解的权限。 产品必须清楚说明 Agent 能看什么、能做什么。
  3. 可见的控制。 用户需要确信敏感动作前会被询问,并且 Agent 会在被要求停止时停止。

这就是 Gemini Intelligence 值得观察的原因。它不只是另一个 Gemini 功能。它是 Google 在测试浏览器和操作系统能否成为日常 Agent 的默认界面。

如果这条路走通,聊天框会变得没那么中心。Agent surface 本身会成为产品。

References

  1. Google, Gemini Intelligence brings proactive AI to Android
    https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/
  2. FlowHat, What Is Claude for Chrome?
    /blog/2026-04-23-what-is-claude-for-chrome-and-how-it-differs-from-claude-desktop/zh/
  3. FlowHat, What Is Codex Chrome? OpenAI’s Coding Agent Moves Into the Browser
    /blog/2026-05-11-what-is-codex-chrome-openai-coding-agent-moves-into-browser/zh/
  4. Reddit, r/Android, Gemini can now summarize a page in Chrome
    https://reddit.com/r/Android/comments/1oa8lqq/gemini_can_now_summarize_a_page_in_chrome/
  5. Reddit, r/ChatGPTPro, Anyone still using OpenAI’s Operator feature? How’s it holding up now that the hype is gone?
    https://reddit.com/r/ChatGPTPro/comments/1kcg1gj/anyone_still_using_openais_operator_feature_hows/
  6. Reddit, r/Android, Notice: Google Gemini AI’s Undisclosed 911 Auto-Dial Bypass – Logs and Evidence Available
    https://reddit.com/r/Android/comments/1o9z3g2/notice_google_gemini_ais_undisclosed_911_autodial/