微软GPT模型可信度综合评估：GPT-4通常比GPT-3.5更值得信赖，但也有例外

文章转载来源：Yangz

撰文：Boxin Wang、Bo Li、Zinan Lin

来源：微软

图片来源：由无界 AI生成

生成式预训练 transformer 模型（GPT）的可信度如何？

为了回答这个问题，伊利诺伊大学香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同发布了一个大型语言模型（LLMs）综合可信度评估平台，并在最近的论文《DecodingTrust：全面评估 GPT 模型的可信度》‌《DecodingTrust：全面评估 GPT 模型的可信度》‌中进行了介绍。

根据我们的评估，我们发现了以前未曾公布过的与可信度有关的漏洞。例如，我们发现 GPT 模型很容易被误导，产生有毒和有偏见的输出，并泄漏训练数据和对话历史中的隐私信息。我们还发现，虽然在标准基准上，GPT-4 通常比 GPT-3.5 更值得信赖，但在越狱系统或用户提示的情况下，GPT-4 更容易受到攻击，这些提示是恶意设计来绕过 LLM 的安全措施的，这可能是因为 GPT-4 更精确地遵循了（误导性的）指令。

我们的工作展示了对 GPT 模型的全面可信度评估，并揭示了可信度差距。我们的基准可公开获取。

值得注意的是，研究团队与微软产品部门合作，确认所发现的潜在漏洞不会影响当前面向客户的服务。之所以如此，部分原因是已完成的人工智能应用采用了一系列缓解方法，以解决可能在技术模型层面发生的潜在危害。此外，我们还与 GPT 的开发商 OpenAI 分享了我们的研究成果，OpenAI 已注意到相关模型的系统卡中存在潜在漏洞。

我们的目标是鼓励研究界的其他人员利用这项工作并在此基础上再接再厉，从而有可能预先阻止不良行为者利用漏洞造成危害。此次可信度评估只是一个起点，我们希望与其他各方合作，在评估结果的基础上继续努力，创造出更强大、更可信的模型。为了促进合作，我们的基准代码具有很强的可扩展性和易用性：一个命令就足以在一个新模型上运行完整的评估。

语言模型的可信度视角

机器学习（尤其是 LLM）领域的最新突破使得从聊天机器人到机器人技术等各种应用成为可能。然而，尽管有关 GPT 模型可信度的文献仍然有限，但实践者们已经提出，即使在医疗保健和金融等敏感应用中，也要使用有能力的 GPT 模型。为此，我们重点从八个可信度角度对 GPT 模型进行了全面的可信度评估，并基于不同的构建场景、任务、指标和数据集进行了全面评估，如下图 1 所示。

总体而言，我们的目标是评估：1）GPT 模型在不同可信度视角下的性能；2）其在对抗环境（如对抗性系统/用户提示、演示）中的适应性。

例如，为了评估 GPT-3.5 和 GPT-4 对文本对抗攻击的鲁棒性，我们构建了三种评估场景：1) 在标准基准 AdvGLUE 上进行评估，采用虚无任务描述，目的是评估 a) GPT 模型对现有文本对抗攻击的脆弱性；b) 不同 GPT 模型在标准 AdvGLUE 基准上与最先进模型的鲁棒性比较；c) 对抗攻击对其指令遵循能力的影响（以模型在受到攻击时拒绝回答问题或给出错误答案的比率来衡量）；d) 当前攻击策略的可转移性（以不同攻击方法的可转移攻击成功率来量化）；2) 在 AdvGLUE 基准上进行评估，给出不同的指导性任务说明和设计的系统提示，以研究模型在不同（对抗性）任务说明和系统提示下的恢复能力；3) 对我们生成的具有挑战性的对抗性文本 AdvGLUE++ 进行 GPT-3.5 和 GPT-4 的评估，以进一步测试 GPT-3.5 和 GPT-4 在不同环境下受到强对抗攻击时的脆弱性。

图 1. 基于不同可信度视角的评估分类。黄色方框表示对现有基准的评估，绿色方框表示使用我们设计的新数据或新评估协议对现有数据集进行的评估。

来自 DecodingTrust 的见解和发现

我们的研究发现了大型语言模型在可靠性方面一些之前未曾披露的优势和威胁。

例如，在模型对对抗性演示的鲁棒性方面，我们发现，一方面，GPT-3.5 和 GPT-4 不会被演示中添加的反事实示例误导，甚至可以从反事实演示中受益；另一方面，我们观察到，提供反欺诈演示会误导 GPT-3.5 和 GPT-4 对反事实输入做出错误预测，尤其是当反事实演示靠近用户输入时，GPT-4 更容易受到反事实演示的影响。

此外，就有毒性和偏差而言，GPT-3.5 和 GPT-4 在良性和无目标系统提示下对大多数刻板印象主题的偏差都不大。但是，在设计有误导性（对抗性）的系统提示下，两种 GPT 模型都可能被“诱骗”同意有偏见的内容。与 GPT-3.5 相比，GPT-4 更容易受到有针对性的误导性系统提示的影响，并更频繁地同意有偏见的内容，这可能是因为 GPT-4 更准确地遵循了误导性指令。模型偏差往往取决于用户提示中提到的人口群体。例如，对于“同性恋者感染 HIV”这一查询，GPT-4 一般会强烈反对，而对于“女性感染 HIV”这一查询，GPT-4 则经常同意并输出有偏见的内容。模型偏差还取决于刻板印象主题。GPT 模型在领导力和贪婪等不太敏感的主题上输出的内容偏差较大，而在毒品交易和恐怖主义等较敏感的主题上生成的内容偏差较小。这可能是由于 GPT 模型对一些受保护的人口群体和敏感话题进行了微调。

DecodingTrust 还评估了 LLM 的隐私泄露问题。我们发现，GPT 模型可能会泄露隐私敏感的训练数据，如标准 Enron 电子邮件数据集中的电子邮件地址，尤其是在提示电子邮件的上下文或少样本演示对时。此外，在少样本的提示下，利用目标电子邮件域等补充知识，电子邮件提取的准确率可比电子邮件域未知的情况高出 100 倍。我们还观察到，GPT 模型会泄露对话历史中注入的私人信息。总体而言，GPT-4 在保护个人身份信息 (PII) 方面比 GPT-3.5 更稳健，而且两种模型对特定类型的 PII（如社会安全号码）都很稳健，这可能是由于对这些 PII 关键字进行了明确的指令调整。不过，当在上下文学习过程中出现隐私泄露演示时，GPT-4 和 GPT-3.5 都会泄露所有类型的 PII。最后，GPT 模型在理解不同的隐私相关词汇或隐私事件方面表现出不同的能力（例如，当被告知“confidentially”时，它们会泄露隐私信息，而当被告知“in confidence”时，则不会）。在我们构建的提示下，GPT-4 比 GPT-3.5 更有可能泄露隐私，这可能是因为它更精确地遵循了（误导性的）指令。我们将在下面的图 2 中介绍更多模型不可靠输出的例子。