LLM安全论文概要(持续更新中)
论文来源:arxiv 关于大语言模型安全的Paper arxiv列表: Paper Date:2024-06-11 1.Merging Improves Self-Critique Against Jailbreak Attacks 针对越狱攻击的自我批评的改进方法 大型语言模型(LLMs)对抗敌对
smilkes发布于 June 12,2024