大模型具有强大的生成能力,攻击者可能利用大模型生成虚假信息,深度伪造(Deepfake)视频、音频和文本,这些内容可能会被用于诈骗、网络钓鱼、诽谤、误导公众舆论或其他恶意目的。例如,FraudGPT(被称为ChatGPT的恶棍化身)能够自动帮助恶意攻击者生成钓鱼邮件。
LLM缺乏对开发概念和背景的了解。用户可能会在不知情的情况下使用人工智能生成的具有严重安全漏洞的代码,从而将这些缺陷引入生产环境。因此,LLM生成的代码内容可能会造成以下安全问题:
产生Web漏洞:成功利用不安全输出处理漏洞可能会导致 Web 浏览器中出现 XSS 和 CSRF,以及后端系统上的 SSRF、权限升级或远程代码执行。
越权访问:该应用程序授予 LLM 权限超出最终用户的权限,从而实现权限升级或远程代码执行。
指的是模型参数、结构或者训练数据甚至调用模型的API接口等相关信息被内部员工获取或被恶意攻击者通过未授权的攻击获取,并进行传播。导致大语言模型被泄露或窃取的原因可能是数据存储的不安全、未经授权的访问或者数据传输过程中的漏洞引起的。那么拿到这些信息的组织或个人,能够省去研发成本便拥有一个功能或性能高度一致的大语言模型,甚至零成本直接非法调用模型的接口进行使用、盈利或其他目的。同时这个风险也会使用户个人隐私受损。泄露与窃取大模型的行为通常违反知识产权或数据隐私保护的法律法规。
举例来说,假设一家科技公司开发了一个大型语言模型,用于自动写作、文本生成等任务。如果该模型的参数或训练数据遭到泄露,其他公司就可以利用这些信息来改进自己的语言模型,降低研发成本,影响公司的商业利益。
另外,如果这个语言模型的训练数据中包含用户发布的社交媒体内容、个人信息等,一旦这些数据被泄露,可能会造成用户隐私受损,引发严重的隐私泄漏风险。
”污染数据冲击安全防线。人工智能时代,黑客组织利用AI升级攻击手段,通过对抗样本、数据投毒(数据投毒是一种通过在训练数据中植入恶意样本或修改数据以欺骗机器学习模型的方法)、模型窃取等多种方式对AI算法进行攻击,使其产生错误的判断,同时由于算法黑箱和算法漏洞的存在,这些攻击往往难以检测和防范。
DAN(Do Anything Now)被认为是一种有效的绕过LLM安全机制的手段,攻击者通过构造不同的场景,绕过LLM本身的一些限制,可能误导LLM输出违法甚至是有害的内容。对于不同的攻击目标,LLM可能会产生多种不同的不安全输出,亦或是做出意料之外的回答,这显然不是模型开发者所希望出现的