https://arxiv.org/html/2410.14881v1
强大的内容审核分类器对生成式AI系统的安全至关重要。内容审核,或称为安全分类,一直以来都充满模糊性:安全与不安全输入之间的差异通常非常微妙,使得分类器(甚至是人类)在缺乏进一步上下文或解释的情况下,很难正确地区分违规样本和正常样本。此外,随着这些技术在各种应用和用户群体中不断部署,通过持续的模型微调来扩展风险发现和缓解的难度与成本也越来越大。
为应对这些挑战,我们提出了一种基于Retrieval-Augmented Generation (RAG)的分类方法,即Class-RAG。Class-RAG通过访问可动态更新的检索库,扩展了其基础大语言模型(LLM)的能力,从而实现了语义热修复(semantic hotfixing),以便灵活、即时地缓解风险。与传统的微调模型相比,Class-RAG在决策过程中表现出更大的灵活性和透明性。实证研究表明,Class-RAG在分类任务上表现更为出色,且对对抗性攻击更加鲁棒。此外,我们的研究结果表明,Class-RAG的性能随检索库规模的增长而提升,这意味着增加检索库的规模是一种可行且低成本的提升内容审核能力的方式。
该文章已加密,点击 阅读全文
并输入密码后方可查看。
【一定要看附件的内容!】
广 西 大 学
电气类专业动手集中实践课程征集选题
课程名称:高级程序语言课程设计
项目名称:众创空间实验室设备与耗材管理系统(题目1)