基准测试

共 7 篇AI快讯

OpenAI发布AI Agent评测基准PaperBench

3浏览 0点赞 8个月前

OpenAI发布AI Agent评测基准PaperBench

OpenAI推出SWE-Lancer基准，衡量模型在真实自由软件工程任务中的表现

7浏览 0点赞 9个月前

OpenAI推出SWE-Lancer基准，衡量模型在真实自由软件工程任务中的表现

智源和腾讯联合发布长文本理解基准测试模型LongBench v2

8浏览 0点赞 11个月前

智源和腾讯联合发布长文本理解基准测试模型LongBench v2

微软推出Windows Agent Arena：实测AI助手在实际Windows系统中的表现

6浏览 0点赞 1年前

微软推出Windows Agent Arena：实测AI助手在实际Windows系统中的表现

北大通研院发布LooGLE基准，长文本理解难度超高，大模型表现惨淡

4浏览 0点赞 1年前

北大通研院发布LooGLE基准，长文本理解难度超高，大模型表现惨淡

谷歌发布人工智能系统Gemini，或将增强其在AI领域的影响力

9浏览 0点赞 2年前

谷歌发布人工智能系统Gemini，或将增强其在AI领域的影响力

亚马逊AWS成立人类基准测试团队，旨在提升人工智能模型评估水平

5浏览 0点赞 2年前

亚马逊AWS成立人类基准测试团队，旨在提升人工智能模型评估水平