共计 398 个字符,预计需要花费 1 分钟才能阅读完成。
对抗性提示是一种让模型生成可抵抗某些类型攻击或偏见的文本生成技术。该技术可用于训练更健壮且能抵抗某些类型攻击或偏差的模型。
要在 ChatGPT 中使用对抗性提示,需要为模型提供提示,该提示旨在使模型难以生成与所需输出一致的文本。提示还应包括有关所需输出的信息,例如要生成的文本类型以及任何特定要求或约束。
以下是提示示例及其公式:
示例
示例 1 – 文本分类的对抗性提示:
- 任务 :生成特定标签分类的文本
- 指令 :生成的文本应该很难归类为特定的标签
- 提示公式 :“生成难以归类为 [插入标签] 的文本。”
示例
示例 2 – 情绪分析的对抗性提示
- 任务 :生成难以归类为特定情绪的文本
- 指令 :生成的文本应该很难归类为特定的情感
- 提示公式 :“生成难以归类为具有 [插入情绪] 情感的文本。”
示例
示例 3 – 语言翻译的对抗性提示:
- 任务 :生成难以翻译的文本
- 指令 :生成的文本应该很难翻译成目标语言
- 提示公式 :“生成难以翻译成 [插入目标语言] 的文本。”
正文完
关注板板AI免费获得移动AI助手