谷歌方面推出评估AI模型危险性的前沿安全框架

日前,谷歌DeepMind方面推出AI前沿安全框架,并公布了相关技术报告。据了解,这一前沿安全框架强调了在AI模型发展过程中识别和缓解潜在风险的重要性,旨在主动识别未来可能造成严重伤害的AI能力,并建立检测和减轻它们的机制。


谷歌DeepMind方面计划到2025年初全面实施这一初步框架,并将与其他公司、学术界和立法者合作,共同完善该框架,就评估未来几代AI模型安全性的标准和最佳实践达成一致。对此谷歌方面强调,"在降低风险与促进获取和创新之间取得最佳平衡,对于负责任地发展AI至关重要"。

谷歌推出评估AI模型危险性的前沿安全框架

据悉,目前谷歌DeepMind方面公布的第一版框架建立在谷歌对前沿模型中关键能力评估的研究基础上,并遵循了负责任的能力扩展这一新兴方法。该框架有3个关键组成部分,其一是识别模型可能具有的严重危害的能力阈值,即谷歌DeepMind研究了模型在高风险领域中可能造成严重伤害的路径,然后确定模型在造成这种伤害中必须发挥作用的最小能力水平,也就是“关键能力阈值”(CCLs)。


其二是定期评估前沿模型,以检测它们何时达到这些关键能力阈值,即谷歌DeepMind将开发模型评估套件,当模型接近CCLs时,它将提醒并频繁运行,以便研究人员在达到阈值前注意到。其三是当模型达到早期预警评估时,应用缓解计划,相关缓解措施应考虑到利益和风险的总体平衡,以及预期的部署环境,将主要关注安全性(防止模型泄露)和部署(防止滥用关键能力)。


据了解,前沿安全框架提出了两类缓解措施,其一是防止模型权重泄露,其二是管理对部署中关键能力的访问并限制其表达。而且对于每一类缓解措施,谷歌DeepMind方面均制定了若干级别,使其能够根据所构成的风险调整措施的稳健性。


谷歌DeepMind方面指出,有研究表明,未来基础模型的能力最有可能在自主、生物安全、网络安全和机器学习研发这4个领域造成严重的风险。其中在自主性、网络安全和生物安全方面,主要目标是评估威胁行为者使用具有先进能力的模型进行有害活动并造成严重后果的程度。而在机器学习研发方面,重点在于具有此类能力的模型是否能够使具有其他关键能力的模型得以传播,或者是否能够使AI能力快速且难以管理地升级。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看