Anthropic 正在开发一种新型的语言模型评估方法,旨在解决 AI 模型在真实世界中可能出现的不可预测行为,并努力提升模型行为的可预测性和可靠性,从而保证 AI 系统的实际应用效果。
与此同时,他们也在积极探索通过构建红队测试、强化对抗性评估以及提升模型透明度等方式,来确保 AI 模型能够更加安全可靠地运行,进而减少潜在风险。
他们希望通过上述措施,能够更全面地评估和验证 AI 系统的性能,最终创造出能够真正服务于人类的 AI 技术。