作者们发现,在实施宪法分类器后, 针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小 ,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。 虽然大型语言模型能生成大量各种各样的有害内容,但 ...
这一颇具讽刺意味的申请条款,在 Anthropic 目前的大多数招聘启事中,出现在“你为什么想在这里工作?”这一问题之前,最近被人工智能研究员西蒙・威利森(Simon Willison)注意到。但根据互联网档案馆的记录,至少早在去年 5 ...
标题:宪法守护者:Anthropic创新技术降低大型语言模型风险 ...
在日趋复杂的AI环境下,面对双标化的现象,Anthropic的这一案例不仅是对AI伦理的反思,也是对整个行业的警示。公正、理性和人性关怀度的提升,将有助于推动科技进步中的伦理牢笼逐渐被打破。
人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法,旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式,以防止 AI 模型生成有害内容。