自打AI大模型技术问世,在互联网上证明“自己是人”就变得越来越难,此前互联网行业用了二十余年的验证码系统,在AI眼中如同纸糊的防线。可互联网信任体系的基石恰恰是所有访问者都是人类,所以如何区分人与机器就变成了一众科技企业的核心课题。

日前有消息称,全球应用最广泛的验证码系统谷歌reCAPTCHA正在测试新的手势验证机制,要求用户录下一小段挥手视频,系统会分析用户的手部运动情况,并提取手指关节、手掌位置等21个关键点坐标。据称,这一手势验证机制可以抵御机器人批量注册账号、凭证填充攻击等网络欺诈行为。
谷歌之所以要将reCAPTCHA升级为通过手势来进行验证,是因为传统的文字、图片验证已经难不倒AI。早在2024年,美国加州大学欧文分校的研究团队就通过实证测试发现,AI识别验证码的准确率已经超过95%,而人类的平均准确率也只有50%至86%。而且受疲劳、界面设计模糊、时间压力等因素的影响,人类反而更容易出错。

最初,验证码通常是显示扭曲的字母要求用户辨认,随着计算机视觉技术的发展,验证码逐步演变成选择图片。但彼时基于卷积神经网络的AI识别图片的过程,是将一张图片拆解为一个个像素点组成的矩阵,使得其对于图片内容的理解能力与幼儿无异。
而多模态大模型的出现,让AI终于会看图了。以DeepSeek开放的识图模式为例,AI能精准描述图片中的视觉元素、风格,以及细节,甚至还能做到根据简谱推理出一首曲子。换而言之,人如何理解一张图片,AI大模型也是,并且后者更快、更准。
如今AI已经实现精确模拟人类的键盘和鼠标移动轨迹,能够像真人一样“骗过”验证码系统。对此就有互联网行业从业者感叹,“AI变得越来越聪明,未来的验证码可能会复杂到大部分人类都答不出来”。所以未来验证码如果继续走正面对抗这个思路,“魔怔”或者“反人类”就是唯一的可能,也就是12306的老路,毕竟后者的验证码不仅难住了机器,也没放过真人。

reCAPTCHA的手势验证码就没有选择与AI正面交锋,而是直指AI的弱点,也就是无法精准且高效地还原人类的手部。尽管现在使用AI绘制宣传海报已经是互联网厂商的常规操作,但即便到了今天,AI绘制的人物手部往往也会出错。
其实不是AI不给力,而是人类的手部太复杂。与手部相比,人类的脸部就要简单得多,毕竟眼睛总是在鼻子上边,嘴巴总是在鼻子下方,结构相对固定,所以AI比较容易找到规律。可反观手部,攥拳时是一个样子、比耶时是一个样子,拿着杯子时又是另一个样子,由于人的手有20多个关节,所以就能摆出无数种姿势,而且手指之间常常还会互相遮挡。

对于人类艺术家来说,手也是绘制肖像或人体素描中的难点,因此AI理解并捕捉到这些精细的几何关系和形态变化难度并不低,如今一些能力有限的AI大模型还很难生成精准的人类手部,更遑论包含手势的视频了。所以通过将动作转化为骨骼点坐标,reCAPTCHA就可以轻松分辨出人与机器。
不仅如此,手势验证机制还有一个优势,那就是需要有一个摄像头或者是拟摄像头的能力,这就会在无形中增加机器人运营者的成本。
然而谷歌这一新技术并未得到普遍认同,尽管他们强调验证流程结束后不会保留用户手势的任何图片或视频,也不会将这些数据用于其他任何目的,完成验证后视频或图片会被自动删除,但依然有大批网友认为这是互联网厂商大规模采集用户生物特征的开端。

只要所采集的坐标数据存在被关联的可能,或是系统在某个环节与用户身份挂钩,就可能会从“挥手验证”走向对肢体特征的监控。其实也不怪这些网友的阴谋论,毕竟只要有利可图,互联网厂商的底线滑落速度能够快到不可思议。此前谷歌的reCAPTCHA v2就曾明确“白嫖”用户的劳动力,让用户当自己的数据标注工。
要知道AI之所以无法准确还原人类的手部,与手部数据集匮乏息息相关,目前全球最大的手部姿态数据集Kaggle也只有五十多万张图片,而人脸数据集的平均水平都在数百万张。因此谷歌也有动力收集用户的手部数据,以完善自家Veo视频模型和Nano Banana图像模型。
【本文图片来自网络】
