So!azy

从豆包手机助手看手机底层智能的边界

appshunter-io-Z8YoR5ZcqNY-unsplash

前段时间,字节跳动和中兴一起做了一件挺「顺理成章」但又颇有象征意义的事:在中兴的 nubia M153 上,从原厂级别深度集成了「豆包手机助手」。严格一点讲,这不是我们熟悉的「买一台手机,然后自己去下一个 AI 助手 App」的模式,而是两家厂商直接在系统底层把这个助手嵌了进去,很多能力是应用层 App 根本做不到的。

从公开的信息看,豆包团队给出的设定是:涉及生物信息、支付之类的高敏感操作,助手并不会自动替用户做,而是交还给用户手动确认。同时,团队还放出了一份《豆包手机助手白皮书》,希望用更透明的方式,向外界说明这套东西的边界和原则。

从结果看,这次合作的市场反馈也很直接:演示视频在中文科技圈传得很快,售价 3,499 元的 nubia M153 也一度被抢空。外在的热闹是一部分,真正值得聊的,还是这件事所代表的时间节点:智能手机从「有一个 AI 功能」走向「由一个 AI 来管这部手机」,似乎终于找到了一次比较完整的落地尝试。

🕊 AI 进入手机底层,是「迟早的事」

如果把过去两年的大模型进展拉成一条时间线,其实可以发现一个很明显的趋势:从一开始只在对话框里「说话」,到后来逐步具备调用工具、访问网页、读取文件、编排任务的能力。再往后,和操作系统、和硬件本身做更深度的集成,大概率只是时间问题。

在这个意义上,「豆包手机助手」的出现,并不意外。真正有点意义的点在于,两件事叠在了一起:

我的第一认知是,第一个真正做出来的未必是豆包,但第一个敢大张旗鼓拿出来的,是豆包。世界范围内,肯定不止这一个团队在做这类东西,甚至有些技术路径可能更激进,只是还停留在实验室和闭门 Demo 里。很快,智谱开放的 Open-AutoGLM 也出来了,从目标和定位上看,本质上就是类似的「自动化终端操作助手」思路,只是把其中一部分能力开源出来。

这种「从 App 层往下、往系统底层渗透」的趋势,可能标志着一个新的阶段:手机不再只是一个被人类逐点操作的工具,而是一个可以被「代理」全权接管,再根据意图自动连点成线的入口。

问题是,谁来定义那条「线」?谁来控制边界?谁来承担风险?

💬 微信的「秒反应」,和一个并不新鲜的老问题

这次事件中,另一个引人注意的细节,是微信的反应速度。微信团队很快就给出态度,不允许豆包手机助手代替用户「接管」微信应用内的具体操作。

对熟悉微信内部逻辑的人来说,这大概不算惊讶。我之前在微信生态里深耕过多年,对他们的一些基本底线是有反复体会的。微信作为一个国民级应用,优先级并不在「技术上能做到哪些开放」上,而在于「怎么把法律和风险层面的底线守住」。

很长一段时间里,很多人在吐槽:为什么 Windows 和 Mac 上的微信这么难用,远远达不到一个超级应用的桌面端应有的水准。很多时候,外界的猜测是「微信团队水平不行」「不重视桌面端」。但如果从风控的角度想一圈,大概就能理解他们的克制。

一旦桌面端开放了足够多能力,各种黑灰产的门槛会立刻降下来:

对普通人来说,被卷入这种规模化攻击,只需要一个不经意的点击。那些远在老家的父母,接到的可能就是「看起来还挺真」的一条语音、一条转账提醒、一段视频通话。这不是一个抽象的风险,而是过去几年已经一次次发生过的现实。

在这样的背景下,任何有「代用户自动操作」意味的东西,只要触达到微信、支付、社交关系层,微信默认的姿态一定是:宁愿拒绝,也不要开放。技术上能不能做到,很可能从来不是主要问题。

所以,微信这次对豆包手机助手的态度,本质上不是「针对豆包」,而是延续了它一贯对自动化和「代操作」工具的基本防御姿态。

真正值得讨论的,是这个逻辑背后暴露出来的一件老事:当代科技进步中,人文、法律、伦理、社会风险这些领域,经常被迫扮演「科技的敌人」。

🥷 「人文」的刹车,和「聪明人」的黑灰产想象力

从技术视角看,自动化、智能化、代理化,几乎一切都在朝着「更省事、更强大、更自动」演进。能让一个助手帮我处理掉 90% 的日常点击、输入、比对、确认,听上去是典型的「效率提升」。

但是,在现实社会里,「越省事」往往意味着「越容易放大风险」。尤其是在中国这样一个互联网渗透率极高、移动支付极普及的环境下,所谓的「聪明人」非常善于把一切新技术,迅速嫁接到黑灰产场景中。

从早期的短信诈骗,到后来各种伪装成快递、客服、领导的社交账号,再到现在混合语音、视频、地理位置、支付转账链接的综合骗局,每一代骗局几乎都踩中了当代技术的最新成果:

在这样的环境下,如果再叠加一个「能代替你在手机上完成绝大多数操作」的智能代理,技术层面看是一种进步,风险层面看,某种意义上也是对黑灰产的「降本增效」。

于是,人文、法律、监管这些本来节奏更慢的领域,只能不断以一种「看上去保守」的姿态出现:限制、延后、要求披露、要求可追责。这种姿态经常被骂成「不懂技术」或者「阻碍进步」,但如果真把场景想象到极致,你会发现,这些刹车其实来得已经不算早了。

比如:

这些设想并不需要太离谱的技术突破,只要把今天已有的一些能力拼接起来,就足够形成可怕的现实场景。

从这个角度看,很多人文、法律、监管层面对新技术的「冷处理」,就不再是简单的「不理解」或「反科技」,而更像是在试图为普通人争取一点缓冲带。科技发展中的「敌人」,有时候只是被迫站在刹车一侧的人。

💁‍♂️ 如果手机可以替我做 90% 的事,我会用吗?

回到这次的主角:这类深度集成在手机底层的智能助手,如果真能实现宣传里的场景,帮我处理掉 90% 的日常手机事务,留下最敏感的 10% 让自己来点一下、确认一下,我会愿意用吗?

理性分析,这似乎是一个很诱人的交易:

但现实中,我大概率会非常谨慎,甚至倾向于暂时不用。原因分成两层。

1. 客观层面:对答案准确性的长期担忧

到目前为止,我依然没有完全摆脱对大模型在一些场景下的「幻觉」问题的担心。很多团队确实在做澄清、引用、核查、加工具链验证,以减少那种「一本正经说错话」的情况,也在各种评测里展示了进步,但在人类的直觉层面,对「机器可能会自信地给出一个错误结果」这件事,天生就会有敬畏。

特别是当这个助手不再只是输出一段文字,而是直接帮我在真实世界里执行操作,比如:

一旦链条拉长、涉及系统之间的链接越来越多,「一点错误」就不再是一个小误差,而可能变成一系列后果。对于这种风险,我到目前为止还是倾向于保守。可接受「建议型智能」,但很犹豫是否要长期接受「执行型智能」。

2. 主观层面:对厂牌立场和激励机制的怀疑

更主观的那一层,其实与技术本身关系不大,反而更关乎「我愿不愿意把判断权交给一个品牌」。

豆包背后的字节跳动,是一个靠推荐算法获得巨大成功的公司。它在内容分发上的逻辑,本质上就是把用户行为数据喂给模型,再由模型决定「推荐什么、推给谁、推多少」,从而优化停留时长和各种转化指标。

这样一家擅长「优化人类注意力流向」的公司,开始和手机厂商联合做底层助手,这件事本身就会触发一些警惕。不是因为它做得一定会比别人坏,而是因为:

演示视频里有一个比价场景:在不同电商平台之间比较同一件商品的价格,助手会帮你整合信息,让你更快得到「哪里更划算」。问题在于,这种场景里隐藏着两层并不容易被用户看见的风险。

第一层,很基础:它获取到的价格,真的是当下各平台的「最低可达价格」吗?

熟悉电商的人都知道,价格体系往往是高度动态的:

在这种情况下,一个助手如果向我展示某个平台的价格,宣称「这里更便宜」,我其实很难验证它是否真的依据了最优的组合策略,还是只抓了某个时间点的标价。即便技术上它有能力算得更细,普通用户也没有足够手段去核查结果。

第二层,更关键:即使技术上可以给出真实「最优价」,我怎么确认它在推荐时是完全中立的?

如果有一天,这个助手身后接了广告系统、竞价排名、平台合作,那情形就会变得微妙:

届时,即便系统在表面上保持了一定的「透明披露」,比如在备注里写一句「部分结果可能包含商业合作」,用户日常的注意力实际上也很难时刻盯着这些小字。更现实的情况往往是:习惯了信任这个助手之后,自然就相信它的推荐是「为我好」,而不是「为某个看不见的利益最大化」。

要接受这样一个助手,就等于默认相信:

坦率讲,以目前对整个行业的了解,我很难完全给出这样的信任票。我相信,未来会引入一些外部监督机制、白皮书、技术审计,但这些都更像是「补课」,而不是治本的办法。

🤔「数字管家」这个说法哪里不对劲

用一个传统一点的类比:假如我有一个非常可靠、非常聪明的人类管家,我会不会把自己的工作和日常生活全权交给他去处理?

理论上,管家帮我管理行程、处理账单、打理社交、购买日常用品,甚至代为沟通部分工作事务,这样的生活确实省心。很多人会觉得,手机助手做到这一步,就是「数字管家」的现代版本。

但冷静想一下,这个比喻还是有明显的不对称。

首先,人类管家的权限,大多围绕「事务」展开,而今天的手机里,积累的是一个人最核心的「身份和底牌」。

相比之下,人类管家的权限往往是「分布在不同实体空间」的,比如家里的钥匙、公司的出入卡、某些账户的代理操作,且很多关键操作(比如银行的大额转账)在制度上就不允许代理完成。这种物理和制度层面的分散,让「被出卖」的风险被一定程度压缩在可控范围内。

手机却不同,它把这些东西统合在了一个高度集中的终端里。一个植入系统底层的智能助手,哪怕在设计之初已经尽量划定边界,未来依然可能被不断地尝试扩权、被不同业务线拉扯、被各种需求驱动着往更多场景里渗透。

其次,人类管家面对的「利益冲突」通常更可感知。

当一个真实的人站在你面前,你大致能判断他的处境、报酬、忠诚度,甚至会给他设定一些「不许碰的东西」。一旦出现明显的背叛和越界,是有机会在早期就察觉到细微变化的。而一个运行在手机底层的助手则不同:

再往深一层说,人类管家如果犯错,通常是「自己犯错」,责任主体是可以被明确指认出来的。而对于一个智能助手来说,它的错误会被拆散在多个层级:模型本身、应用逻辑、第三方服务、平台策略、商业合作,往往没有一个清晰的「谁来扛」的问题。对普通用户而言,「责任模糊」就是最现实的困境。

所以,从传统比喻回看当下的手机助手时,我更倾向于这样理解:它不是一个「多了双手脚的人类助手」,而是一套「置身于你生活核心地带的信息和决策系统」。把多少权限交给它,并不只是生活方式的选择,而是对自身安全感、对科技公司边界感的重新定义。

🙅‍♂️ 写在最后

综合前面的几层考量,我现在对这类手机底层助手的态度,是既不否定它们作为技术路线的价值,也很难对它们给出全面的信任。在客观层面,我承认:

但在主观层面,我暂时更愿意把它们当作「辅助建议工具」,而不是「完全代办代理」。具体而言:

站在今天这个时间点,像豆包手机助手这样的尝试,很可能只是一个开头。未来几年里,类似的系统或框架大概率会越来越多,手机操作系统、应用生态、监管规则、普通用户的心理预期,也都要在一次次迭代中重新寻找平衡。

对个人而言,真正需要思考的问题,可能不是「要不要彻底拥抱」或者「要不要彻底拒绝」,而是:

手机已经不再是一个简单的通讯工具,更像是一个人生活和身份的「浓缩投影」。在这种前提下,对手机底层智能助手保持一点迟疑,也许并不代表落后,只是出于对风险和不确定性的本能谨慎。

等到哪一天,这种谨慎被足够扎实的机制、透明的边界和可验证的安全感一点点消化掉,也许我才会真正考虑,把更多的权限交给它来代劳。

#daily