研究人员:能够产生有害AI响应的“对抗性攻击” 媒体

2025-05-13

大型语言模型的安全漏洞研究

关键点

亚马逊云计算服务AWS的研究揭示了大型语言模型在语言理解和响应方面的安全漏洞。对抗性攻击可以轻易操控模型生成有害回应,且成功率高达90。这些漏洞不仅限于单一模型,还具有跨模型的迁移性,显示出训练方法的根本缺陷。研究建议在音频输入中加入随机噪声作为初步对策,尽管这并非完整解决方案。

亚马逊云计算服务的研究人员进行的一项研究揭示了大型语言模型对语音的理解和响应存在严重的安全漏洞。这些漏洞可能会被攻击者利用,通过复杂的音频攻击操纵模型生成有害回应,相关信息来自 VentureBeat。

研究表明,尽管存在安全检查,语音语言模型却极其容易受到“对抗性攻击”的影响。这类攻击对音频输入进行微小且几乎不可察觉的更改,结果严重改变了模型的行为。在实验中,这些攻击的平均成功率高达90,成功生成有毒的输出。

研究人员:能够产生有害AI响应的“对抗性攻击” 媒体类型成功率对抗性攻击90模型间迁移攻击10

此外,研究显示对一个语音语言模型的音频攻击可以迁移到其他模型,即使没有直接访问权限,这种迁移成功率也达到了10。这一现象表明当前这些系统的安全训练方式存在根本性缺陷。

这些影响相当深远,对抗性攻击可能被误用来进行欺诈、间谍活动或对实体的伤害。

快喵加速器安卓下载

研究人员提出了一些对策,比如在音频输入中加入随机噪声,以降低攻击的成功率,但他们也承认这并不是一个完美的解决方案。

如需了解更多相关信息,请查看这篇 文章。