微软为 Azure AI 推出这些安全工具

微软推出了一套工具，据称可以帮助让人工智能模型在 Azure 中使用起来更加安全。

自从云和代码行业开始向 OpenAI 注入资金，并向其软件帝国注入聊天机器人功能（竞争对手在关于生产力的宏大承诺中以同样的热情上演了一场戏剧）以来，微软不得不承认生成式 AI 伴随着风险。

危险众所周知，有时却被轻率地抛在一边。十年前，埃隆·马斯克警告说，人工智能可能只是毁灭人类。然而，这种担忧并没有阻止他在以下领域提供人工智能：汽车，在他的社交媒体扩音器，也许很快就会在机器人.

产生幻觉并提供不正确或有害响应的大型语言模型的出现导致了重新回到绘图板，但又回到了董事会以寻求进一步的资金。科技行业不是生产安全、合乎道德的产品，而是试图驯服野生模型，或者至少让它们远离可以肆意横行而不伤害任何人的客户。

如果这不起作用，总有保障根据某些条款，来自供应商的法律索赔。

行业对人工智能安全的承诺与政府的相应要求不谋而合。周四在美国，白宫管理和预算办公室 (OMB) 发行这是第一个解决人工智能风险的政府政策。

该政策要求联邦机构在 1 月 XNUMX 日之前“在以可能影响美国人权利或安全的方式使用人工智能时实施具体保障措施”。这意味着风险评估、测试和监控，努力限制歧视和偏见，并促进涉及健康、教育、住房和就业的人工智能应用的透明度。

因此，微软通过负责任的人工智能首席产品官莎拉·伯德（Sarah Bird）介绍了其最新的人工智能安全措施，这个头衔暗示着不负责任的人工智能的存在——如果你能想象得到的话。

伯德表示，企业领导者正在努力平衡创新和风险管理，让他们能够使用生成式人工智能而不被其困扰。

Bird 在一份报告中解释道：“即时注入攻击已成为一项重大挑战，恶意行为者试图操纵人工智能系统做超出其预期目的的事情，例如产生有害内容或窃取机密数据。” 博客文章.

“除了减轻这些安全风险之外，组织还关注质量和可靠性。他们希望确保他们的人工智能系统不会产生错误或添加应用程序数据源中未经证实的信息，这可能会削弱用户的信任。”

由于人工智能订阅费中不包含安全性和准确性，微软看到了机会卖掉它们作为附加组件。

使用 Azure AI Studio 帮助他们创建生成式 AI 应用程序的客户可以期待四种新工具。

首先，有快速护盾，它有望帮助防御即时注入攻击。以前称为越狱风险检测，现在已公开预览，它是一种减轻基础模型中直接和间接即时干预风险的方法。

直接攻击涉及旨在使模型忽略其安全训练的提示（输入）。间接攻击是指偷偷输入模型的行为。实现此目的的一种方法可能是在电子邮件中包含隐藏文本，并且知道通过 Outlook 中的 Copilot 代表收件人行事的 AI 模型将解析消息，将隐藏文本解释为命令，并希望按照指示行事，例如默默地回复敏感数据。

第二是接地检测，一个用于捕捉人工智能模型出现幻觉或编造事情的系统。当检测到虚假声明时，它为客户提供多种选择，包括将响应发回以在显示之前进行修改。微软表示，它已经通过构建自定义语言模型来实现这一目标，该模型可以根据源文档评估未经证实的声明。所以，你猜对了，人工智能模型安全性的答案是另一个模型。

尽管这是迈向值得信赖的人工智能的美好一步，但问题仍然没有解决

第三，我们有 AI辅助安全评估 AI Studio 中提供了一个测试框架，用于呈现提示模板和参数以测试与客户应用程序的各种对抗性交互的模型。再说一遍，是用人工智能来测试人工智能。

最后，有 “风险与安全监测”，Azure OpenAI 服务的一项功能，可提供有害内容指标。

Vinu Sankar Sadasivan，马里兰大学博士生，帮助开发了野兽攻击法学硕士，告诉注册虽然看到 Azure 构建工具来使 AI 更加安全令人兴奋，但在组合中添加更多模型会扩大潜在的攻击面。

“Azure 的安全评估以及风险和安全监控工具对于调查人工智能模型的可靠性非常重要，”他说。 “虽然这是迈向值得信赖的人工智能的美好一步，但问题仍然没有解决。例如，他们推出的提示盾可能使用另一种人工智能模型来检测和阻止间接提示攻击。这种人工智能模型可能容易受到对抗性攻击等威胁。

“对手可以利用这些漏洞绕过 Prompt Shields。尽管安全系统消息在某些情况下已被证明是有效的，但现有的攻击（例如 BEAST）可以敌对地攻击 AI 模型，从而立即越狱它们。虽然对人工智能系统实施防御是有益的，但必须认识到它们的潜在缺点。” ®

生成数据智能