亚马逊云计算服务的研究人员进行的一项研究揭示了大型语言模型对语音的理解和响应存在严重的安全漏洞。这些漏洞可能会被攻击者利用,通过复杂的音频攻击操纵模型生成有害回应,相关信息来自 VentureBeat。
研究表明,尽管存在安全检查,语音语言模型却极其容易受到“对抗性攻击”的影响。这类攻击对音频输入进行微小且几乎不可察觉的更改,结果严重改变了模型的行为。在实验中,这些攻击的平均成功率高达90,成功生成有毒的输出。
此外,研究显示对一个语音语言模型的音频攻击可以迁移到其他模型,即使没有直接访问权限,这种迁移成功率也达到了10。这一现象表明当前这些系统的安全训练方式存在根本性缺陷。
这些影响相当深远,对抗性攻击可能被误用来进行欺诈、间谍活动或对实体的伤害。
快喵加速器安卓下载研究人员提出了一些对策,比如在音频输入中加入随机噪声,以降低攻击的成功率,但他们也承认这并不是一个完美的解决方案。
如需了解更多相关信息,请查看这篇 文章。