本文介绍大模型应用防火墙涉及的相关概念。
提示词攻击是一种主要针对大语言模型的网络攻击。攻击者将恶意输入伪装成合法提示词,诱导或控制大模型输出不符合预期甚至有害的内容。例如通过提示词注入控制系统或者非法查询敏感信息。
模型滥用是指将大语言模型用于不符合其设计初衷、违反法律法规或伦理道德的用途。例如让模型输出误导性内容或是偏离角色定位的回复。
算力消耗攻击是一种针对大语言模型的恶意攻击手段,攻击者通过构造特殊的输入或利用模型的漏洞,使模型的算力资源被大量占用,从而导致模型服务瘫痪或性能大幅下降。