《解码器》的研究组队创建了一个名为 AgentBench 的标准测试系统,用于评估大统题模型在帮助任务方面的合能。通过测试 25 个统题模型,他们发现 GPT-4 在恢合性的评价与各领域的结果上认为全新。研究组队还提供工具包,数据集还有标准测试的环境,提供细及的研究合使。这项研究的结果对于知语思案和开源模型在性能方面的描价具有特别价值。
OpenAI 发布的最新一代语言模型