搭载豆包手机助手的努比亚M153,并不适合普通人

传说中的“豆包手机”终于来了,只不过它并非字节跳动自研的AI手机。近日,字节跳动旗下AI助手豆包和中兴通讯方面先后宣布,搭载豆包手机助手技术预览版的工程样机努比亚M153正式发售。

搭载豆包的努比亚M153,普通人确实不该买

如果只看努比亚M153,那么这款手机用平平无奇来形容也不为过。其搭载高通骁龙8至尊版主控、采用了6.78英寸的LTPO屏幕,提供6000mAh电池,支持90W有线充电和15W无线充电,配备1/1.3英寸5000万像素主摄+5000万像素超广角+5000万像素长焦组成的后置三摄模组,俨然就是一款国产次旗舰手机。


如果没有搭载豆包手机助手,售价3499元的努比亚M153或许很难让消费者提起兴趣,那么豆包手机助手能化腐朽为神奇吗?单看字节跳动方面公布的DEMO,豆包手机助手无疑是一个很有野心的产品,它不是AI Agent、而是GUI Agent(图形界面智能体),核心能力是通过视觉理解与自然语言交互来实现自动化操作。

搭载豆包的努比亚M153,普通人确实不该买

比如,用户只需要通过系统级语音唤醒、机身侧边AI键、耳机对话等方式唤醒豆包手机助手,就可以实现全平台比价下单,能够自动遍历淘宝、京东等购物软件,并筛选出最低价格,以及预订餐厅、购买高铁票等操作。


只需动动嘴就能驱使AI替自己干活,豆包手机助手描绘的这一幅蓝图确实很有想象空间。乍一看,相比目前友商手机上的AI,豆包手机助手能做的事情更多。


当下“AI手机”之所以不太受待见,主要是因为它并没有太多用处,功能也只局限于AI生成文案、AI识图、AIGC消除、AI通话摘要、AI相册整理,相当于只是手机里多了几个App而已。

搭载豆包的努比亚M153,普通人确实不该买

而豆包手机助手想要告诉大众的,它不止是一个App,而是整合到了操作系统层级,用户只用说出需求,它就会调度多个App解决问题。


但需要注意的是,豆包手机助手的跨应用调度也是有局限性的,它还只能算是一个半成品状态的GUI Agent。


底层权限无疑是AI时代最坚固的护城河,这就使得现阶段的豆包手机助手还只是半成品,它的运行模式与Anthropic在去年秋季发布的“Computer Use”如出一辙。只不过Anthropic选择让AI观看屏幕截图来实现移动光标、点击按钮、输入文本等操作,而豆包手机助手则是借助Android系统的无障碍服务来实现持续读屏。

搭载豆包的努比亚M153,普通人确实不该买

豆包手机助手要实现跨应用的连贯操作,就必然需要突破App的权限限制。而在Android系统中,为残障人士服务的无障碍功能就是少数能实现跨应用界面识别、模拟用户操作的权限。比如过滤开屏广告的“李跳跳”,就正是借助无障碍服务来检索手机App的窗口,并模拟用户点击屏幕上的“跳过”按钮来实现自动跳过广告。


有了“李跳跳”的前车之鉴,手机厂商对于无障碍服务的权限管控就极为严格,通常的App很难获得。因此豆包手机助手与努比亚合作,直接从系统底层开放权限,不再需要走其他App“从申请到授权”的模式。可是借助无障碍服务实现的跨应用调度,其实是有缺陷的。

搭载豆包的努比亚M153,普通人确实不该买

众所周知,AI业界定义的智能体指的是能够自主感知环境,并采取行动实现目标的智能实体,为实现这一目标,智能体底层的AI模型就需要能像人类一样自如、灵活地操作所有软件。可当下的现实,却是AI模型还只能在自己的一亩三分地里做到如臂指使,难以调动第三方的软件或服务。


简单来说,智能体其实是遇到了“语言不通”的问题,因为第三方软件听不懂智能体的话,自然也就无法接受指令。为了让智能体具备主观能动性,Anthropic拿出了“Computer Use”作为解决方案。而它则是基于视觉模型解析屏幕上的元素,再用前台模拟人工操作的方式让AI来操控设备。

搭载豆包的努比亚M153,普通人确实不该买

“Computer Use”是让AI去模仿人类与数字世界的交互方式,而非用更类似于计算机“母语”二进制代码,就使得其从一开始就是个过渡性质突出的“曲线救国”方案。其所代表的纯视觉路线是模仿人类与计算机的交互,就必然会带来更长的任务执行时间,而这就代表更多token的消耗,也就是成本高昂。


因此Anthropic提出了MCP协议,后者就相当于是AI模型的USB接口,使得AI模型可以使用通用协议来调用不同的服务和工具。开发者只需搭建一个MCP服务器,就可以让智能体访问所有支持MCP协议的数据源或工具。

搭载豆包的努比亚M153,普通人确实不该买

但遗憾的是,如今软件开发者对于MCP协议兴趣缺缺。但这背后的原因也很简单,毕竟自家产品上的开屏广告、信息流广告并不是给AI看的,一旦接入MCP就等于主动将自己的产品管道化,这种为他人做嫁衣的事情,开发者自然不愿意去做。君不见,不仅淘宝、微信没有向豆包手机助手开放,甚至就连字节跳动自家的抖音、飞书也没有给权限。


当然,软件开发者不配合还可以慢慢磨,但用户隐私问题可就不那么好解决了。要知道,如今智能手机毫无疑问已经是用户最重要的随身设备,作为GUI Agent的豆包手机助手想要工作,就需要用户给予它读取屏幕内容的权限。换而言之,你能从自己手机的屏幕上看到什么,豆包手机助手同样也能一览无余,也就是说你的购买记录、浏览偏好都得向豆包敞开大门。

搭载豆包的努比亚M153,普通人确实不该买

尽管隐私问题可以用端侧AI来解决,但GUI Agent能否成为一个权利主体,则暂时还是一个无解的难题。比如在点外卖这件事上,用户亲自下单时,自己可以作为主体来承担决策后果,可要是豆包手机助手替代用户做了决策,万一出现食品安全问题,该由谁来负责呢?


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看