新闻中心

EEPW首页 > 智能计算 > 业界动态 > 攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

作者：时间：2024-07-31 来源：IT之家

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

收藏

IT之家 7 月 31 日消息，Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。

本文引用地址：//www.cazqn.com/article/202407/461541.htm

IT之家在这里简要补充下背景知识：

提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；
提示词越狱（prompt jailbreaks）：绕过安全和审查功能。

不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时，发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号，就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说：

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

Robust Intelligence 首席技术官海勒姆・安德森（Hyrum Anderson）表示

无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。
它的攻击成功率从不到 3% 到接近 100%。

<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a7a83b30&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a3d98779&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=abca108c&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a1775170&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a449048b&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

关键词： Meta AI

评论

相关推荐

释说芯语16：硬科技：构建企业未来之路（附PPT）

jackwang | 2018-10-22

AI+机器视觉成趋势，图文详解N大应用场景

智能计算安森美 AI 机器视觉 | 2024-07-31

iCAN-4017 AI功能模块

资源下载周立功单片机功能模块 iCAN-4017 AI | 2007-03-30

SST 89C54 89C58的中文资料

资源下载 Meta Tech Technical Training SST 89C54 89C58 | 2007-03-27

META-DX1系列：具有MACsec和FlexE的太比特级以太网PHY

视频 Microchip META-DX1系列 MACsec FlexE 太比特级以太网PHY | 2019-07-18

“破局AI开发，释放边缘算力开发者访谈”，干货满满！

视频 intel AI OpenVINO | 2021-06-10

摩根士丹利：仅 GB200 AI 服务器业务，就为英伟达创造 2100 亿美元年收入

智能计算 GB200 AI 英伟达 GPU | 2024-07-26

WTC-AI太阳能热水器电路图

设计方案 WTC-AI 太阳能热水器电路图 | 2012-07-24

万家乐JSYZ5-AI燃气热水器电路图

设计方案电路图热水器燃气 JSYZ5-AI 万家乐 | 2013-01-17

面向VxWorks的嵌入式软件集成开发环境研究

资源下载 CA算法 C&S Crawler Meta URL VxWorks WDB Scintilla BSP | 2009-02-16

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

智能计算 Meta AI | 2024-07-31

人工智能是如何帮助阻止造假者的？

谢丫丫 | 2018-08-14

iPhone 16将不会预装AI功能？计划通过iOS 18.1发布

iPhone AI iOS | 2024-07-30

国际奥委会：最大限度发挥 AI 工具影响力，体育人才选拔方式有望得到革新

智能计算 AI 奥运会体育 | 2024-07-26

Meta训练Llama 3遭遇频繁故障

智能计算 Meta Llama 3 英伟达 H100 显卡 GPU | 2024-07-29

2021春晚黑科技，火爆全网的\"打工牛\"是什么来头？

视频 AI 机器人 | 2021-02-26

瑞萨电子AI单元解决方案成功提高GE医疗（日本）日野工厂的生产力

winni945 | 2018-09-12

海联达（Aigale）Ai-HD1 无线全高清套件拆解

zhuwei0710 | 2013-04-28

如何快速搭建手写体识别演示系统

视频 digikey AI 手写体识别 | 2022-07-29

WTC-AI型太阳能热水器电路图

设计方案电子电路图，WTC-AI 太阳能热水器电路热水器 | 2012-07-30

SST89C54_SST89C58 单片机

资源下载 Meta Tech 单片机 SST89C54 SST89C58 | 2007-03-20

苹果承认：AI模型使用谷歌定制芯片训练

智能计算苹果 AI 谷歌定制芯片 | 2024-07-30

电子元件培训教材

资源下载 NBA 电子元件识别电阻识别电容识别 AI MI SMT DIP 静电防护 | 2008-09-20

Nvidia的CEO谈AI的未来：“我们将需要三台电脑... 一台来创建AI... 一台来模拟AI... 一台来运行AI”

智能计算 AI | 2024-07-31

苹果表示其AI模型是在谷歌的定制芯片上训练的

智能计算 AI | 2024-07-30

AI驱动的嵌入式声音和振动识别

视频 ADI AI 嵌入式 OtoSense | 2018-10-23

继上次海联达Ai-ap100拆机之电源改造

zhuwei0710 | 2013-04-03

深圳加快打造 AI 先锋城市，今年将建成 4000PFLOPS 算力智算中心

智能计算 AI 智能计算深圳 | 2024-07-30

焦点

推荐视频

技术专区

关闭