总部位于纽约的人工智能创业公司Arthur发布了一个开源工具ArthurBench,用于评估和比较大型语言模型的性能。ArthurBench能帮助企业在特定用例上测试不同语言模型的表现,并根据准确性、可读性、风险规避等指标进行比较。目前,已经有金融服务公司、汽车制造商和媒体平台等企业开始使用ArthurBench,加快了数据分析和提供更精准答案的进程。