谷歌版“豆包手机”发布,GUI路线会成为主流吗?_王帅_操作_用户
GUI路线与API路线解决的是不同场景下的不同问题,与其争论孰优孰劣,行业应当着眼于合力推动将数据与隐私保护机制标准化、强制化的落地。
GUI路线与API路线解决的是不同场景下的不同问题,与其争论孰优孰劣,行业应当着眼于合力推动将数据与隐私保护机制标准化、强制化的落地。
文丨樊朔
作为AI能力落地的重要场景,手机智能体赛道正在涌入更多玩家。
2月26日凌晨,三星发布了搭载了谷歌Gemini AI的最新Galaxy S26系列。在展示中,Gemini AI可以自动打开外卖应用、选择餐厅订购披萨、下单支付,也可以调用打车App完成设定目的地、自动叫车等操作。中兴终端事业部总裁、努比亚总裁倪飞表示,三星与Gemini的组合,***用了GUI(图形界面识别)技术。
事实上,Gemini AI展现出的能力并不新鲜。
就在三个月前,字节跳动豆包手机助手团队联合中兴发布了具有类似能力的努比亚M153,通过 GUI技术实现了帮助用户跨越应用壁垒、像***一样操作手机的能力。
不过,豆包手机助手陷入争议。有用户反馈称,豆包手机助手因调用“无障碍”及“屏幕共享”权限,触发了一些App的通用风控策略,导致其账号受限。对此,豆包方面紧急下线相关功能并协助解封,同时公开重申其操作合规、无隐私侵入,仅为既定权限调用而非黑客行为。
对于GUI路线,外界争议最多是其调用了INJECT_EVENTS 权限,豆包手机助手团队表示,已经在权限清单中进行了明确披露。据了解,INJECT_EVENTS 确实是系统级权限,但有更严格的使用限制,而且大多手机厂商的助手服务也都涉及调用该权限。拥有该权限许可,相关产品才能跨屏、跨应用来模拟点击***,完成用户操作手机的任务需求。豆包手机助手需要用户主动授权,才可以调用该权限,使用操作手机功能。
豆包手机助手团队同时表示,据他们了解,目前行业的AI助手,均需要使用该权限(或与其类似的无障碍权限)才能提供操作手机的服务。
目前来看,手机智能体主要分为以豆包手机助手为代表的GUI路线和以苹果等厂商为代表的API路线。
GUI路线是指,AI 利用多模态大模型对手机屏幕进行 OCR(文字识别)和布局分析,理解界面上的每一个图标和按钮,并通过意图推理规划操作路径,最终实现动作的执行。
API路线则更为传统,智能体厂商需要通过规范化的API接口调用App功能,从而完成任务,而非直接操作App界面。
在手机智能体赛道的火热竞争之下,外界也在关注哪种技术路线可以在博弈中胜出。
香港科技大学计算机科学及工程学系副教授王帅表示,GUI路线与API路线解决的是不同场景下的不同问题,将两者对立没有太大的意义。从技术上来说,目前智能体不缺少保护数据与隐私安全的工具和手段,行业应当合力推动这些机制标准化、强制化的落地。
“与其把精力花在争论哪条路线更危险,不如把力气用在确保每条路线都能达到应有的安全水位上。”王帅说。
哪条路线是最优解?
王帅认为,GUI路线有着三大优势。
第一,适用范围更广。API路线成立的前提在于App开发者必须愿意开放API接口。但在现实中,大量中小应用、长尾服务没有标准化API,也没有动力去做。相比之下,GUI路线对服务端的要求低很多。理论上只要有可交互的界面,就存在被感知和操作的可能,不用等生态里各方慢慢谈合作、定标准。对于缓解“生态孤岛”问题而言,这条路会走得更快一些。
第二,透明度更高。GUI路线下,智能体的操作过程大部分都能映射在屏幕上,用户可直观地看到它在做什么。这种“所见即所得”的模式,在建立用户信任上有天然的好处。“坦率地讲,黑箱操作谁都不太踏实,监管侧对算法透明度的关注也在持续升温。”王帅说。
第三,在生态层面,API 路线在发展过程中可能会比较容易演变成几个大平台主导的格局,在“接口谁来定”“数据往哪流”等问题上,话语权容易向头部平台集中。GUI 路线的接入门槛相对较低,“小而美”的服务也更有机会被智能体发现和调用,对维护多元竞争格局有正面的意义。
不过,王帅提醒,GUI路线的鲁棒性、执行效率较低等老问题仍然存在。长远来看,GUI路线和 API路线融合可能才是更优解。不过,眼下 API 生态远谈不上成熟,GUI 路线提供的是一条务实的、能先跑起来的路,行业不妨多给它一些探索空间。
智能体已具备安全机制
对于引发公众关注的隐私和安全问题,王帅认为,公众有顾虑很正常,但这些顾虑不应该绑定在某条技术路线上,而应该评估技术路线本身的机制。从技术和制度两个维度看,目前保障用户权利的工具箱其实已经相当充实。
王帅指出,从用户控制来看,目前成熟的智能体方案基本都跑通了一条链路:事前——明确告知权限和隐私政策,让用户知情授权;事中——操作过程实时可见,在支付、登录、签协议等敏感节点,主动交还控制权给用户;事后——完整的操作日志随时可查。
“这套设计的逻辑是,智能体是替你干活的,不是替你做主的。”王帅说。
对于公众关心的数据和隐私保护问题,王帅表示,《中华人民共和国个人信息保护法》规定了数据处理的两大基本原则——数据最小化原则和目的限定原则。数据最小化原则是只处理为实现特定目的所必需的最少量的个人信息;目的限定原则是指处理个人信息应当具有明确、合理的目的,且处理活动应当与处理目的直接相关。
为实现这两项原则,智能体也有相应的工程手段,能在端侧处理的就不上云,必须用云端处理的数据“用完即删””,同时***用传输加密和信息脱敏技术,把数据暴露面压到最小。
王帅介绍,隐私影响评估(PIA)、合规检测等机制也为智能体的运行提供了较为严格的制度性保障。需要强调的是,无论 GUI还是 API,隐私保护与合规要求是所有技术路线都必须同等遵守的底线,不存在某条路线天然更安全或者某条技术路线更危险的问题。真正决定安全水平的,是开发者是否严格落实了已有机制。返回搜狐,查看更多
同类文章排行
- 字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
- 易语言作者吴涛的技术水平在国内能排到什么级别?
- systemd吞并了什么?
- 养乌龟是什么体会?
- 360 集团周鸿袆努力拼了 4 年,最后反而跌了近 4000 亿,其原因是什么?
- 我是新手想养鱼,预算不超过200。有什么好的建议或者禁忌吗。?
- 自己拥有一台服务器可以做哪些很酷的事情?
- 苹果C口和安卓C口有什么区别?
- OpenWrt 能做哪些有趣的事?
- 有什么好看的追妻火葬场的文吗?
最新资讯文章
- 华夏的历史中有哪位名将能代替赵括,打赢长平之战?
- 怎么可以看一个人是否成熟?
- 哪个ai写代码最强?
- 杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?
- 多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么?
- 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
- 作为普通中国人,我们可以为以色列人民做点什么?
- 如何优雅劝退他人做自媒体?
- 为什么这么多人讨厌中国移动?
- 什么洗碗机,真的有家庭在用么?
- 怎么挑选做设计用的显示器,要看哪些参数呢?
- 腰肌劳损是如何管理的?恢复之后如何避免复发?
- Python+rust会是一个强大的组合吗?
- 为什么越来越多人不敢炒股了?
- 用电蚊拍电蚊子算不算是蚊子最痛苦的死法?
- 为什么这么久了还是没有主流软件开发鸿蒙版?
- 我的世界怎么租一个四个人的服务器?
- 大家都喜欢用什么浏览器?
- 一个练过功夫的姑娘能打过一个没练过的男人吗?
- 如何评价花系博主:前hr本人,溪溪大人,兔撕机等人被禁言?





