“你的双手即将获得带薪假期(PTO)。是时候让你的手指休息一下了…… 一个重磅消息将于周四到来”。数天前,微软方面暗示将于当地时间周四(10月16日)为Windows带来重大更新。近日他们也公布了答案,正式确认Windows 11将演进为“智能体操作系统(Agentic OS)”。
在微软的介绍中,Windows 11成为Agentic OS的第一步是让“让手指休息一下”,为此他们推出了语音唤醒指令“Hey Copilot”。使得用户无需再依赖传统的键盘和鼠标进行手动操作,只用喊出“Hey Copilot”,即可唤醒Windows系统中的Copilot应用,并用语音召唤Copilot来完成分析屏幕内容、回答问题、提供建议等操作。
看到这里,估计熟悉微软的朋友会忍俊不禁,因为这家科技巨头又双叒叕一次选择吃回头草了。如今的“Hey Copilot”与此前的“Hey Cortana”有何不同,如果不是当初的个人智能助理Cortana半途而废,微软的“智能体操作系统”恐怕早就成为了现实。
Cortana(微软小娜)是微软在2014年推出的个人智能助理,它会记录用户的行为和使用习惯,并利用云计算、搜索引擎和“非结构化数据”分析,读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户的语义和语境,从而实现人机交互。
没错,早在10年前,微软的Cortana就已经拥有了深度学习这个如今时髦的能力,并且也能做到跨应用的工作流。曾经用过搭载Windows Phone操作系统手机的朋友想必对Cortana的强大深有体会,彼时在Siri还是“智障”,还只能放个歌、定个闹钟的时候,Cortana就已经可以执行跨应用的工作流了。
不仅如此,当时微软还提出了“Cortana Everywhere”的愿景,即让Cortana在各种不同配置、不同版本、不同操作系统的终端上都能够被调用,并提供一致性的用户体验。只可惜,Window Phone的失败断送了Cortana的未来。
由于失去了移动端这个阵地,被迫龟缩到桌面端的Cortana不得不面临一个窘境,那就是彼时的语音交互效率要远低于键鼠。
到了2020年,微软用一则声明宣告了Cortana的战略性收缩,“考虑到我们对生产力用户的关注,我们认为Cortana在Office和Windows内部对用户更有意义”。至此之后,Cortana逐步淡出了大众的视野。然而当初的微软也未曾想到,深度学习技术衍生出的大语言模型会让AI的智能水平迎来跨越式提升。
从某种意义上来说,Copilot其实算得上是Cortana的换皮,它依然扮演着个人智能助理的角色。通过MCP(模型上下文协议)以及 “计算机使用代理”,Copilot确实做到了如同人类般操控Windows设备。只不过微软这次又忽视了一个问题,那就是语音交互是否兼容PC这个生产力属性更为突出的设备。
尽管动动嘴就能操作电脑的想法确实很美妙,可语音交互对于环境的要求会限制“Hey Copilot”的使用场景。国内数码爱好者对于“安静!别吵到我用TNT”这个名梗应该不陌生,它的诞生源自于锤子科技创始人罗永浩在展示TNT工作站的语音操控能力时频频翻车,最后只能靠喊出“理解万岁”来缓解尴尬。
如今虽然ASR(语音识别)、NLP(自然语义处理)、远场拾音、声纹分离等技术进步速度飞快,在复杂声学环境下准确捕捉用户的声音已经不是什么难事,然而PC在相当多时候扮演的是生产力工具这个角色,需要在诸如办公室这样的公共场所使用。
即便用户能克服在大庭广众对着空气说话带来的羞耻感,估计公司老板也不会乐意看到办公室变成熙熙攘攘的菜市场。其实不是“Hey Copilot”带来的解放双手没有想象空间,而是在现有的社会秩序下,语音交互与生产力几乎注定无法共存。
除非远程办公成为职场标配,否则“Hey Copilot”大概率会步“Hey Cortana”的后尘,成为微软“砍刀部”的下一个对象。
【本文图片来自网络】