清华北大联合发布长视频理解基准测试LVBench

11个月前发布AI俱乐部

清华北大联合发布长视频理解基准测试LVBench的封面图

站长之家（ChinaZ.com）6月17日消息：近日，清华大学、上海交通大学与一流科技携手，共同发布了一项针对LVBench大语言模型的评测基准，旨在全面评估大模型在现实场景中的应用能力。当前，该项目已经在Github上开源。

据悉，该评测基准涵盖了多个贴近实际的复杂应用场景，旨在评估模型在真实业务环境下的性能表现。与传统的benchmark评测不同的是，LVBench更注重考察模型在解决实际问题时的能力，而非仅仅是理论上的指标。

本次发布的评测内容包括6个核心能力维度和21个细分能力，覆盖了内容生成、代码编写、数据分析以及日常应用等多个领域。该评测着重关注大模型在复杂任务中的表现，尤其是在需要长期规划、多轮迭代和工具调用的场景下。通过这些细致的评估，LVBench旨在全面衡量模型在实际应用中的能力。

LVBench基准的推出，旨在弥补当前大语言模型评测体系中的不足，它不仅考察模型在传统任务中的表现，更关注其在实际应用中的综合能力，涵盖了对齐、规划能力、工具使用和长期记忆等关键方面，为大模型的发展和应用提供更全面的参考依据。

通过这一基准的评估，开发者可以更深入地了解大模型在实际应用中的优势与不足，从而更好地优化模型性能，提高其在复杂场景下的适应性和实用性。同时，它也有助于推动整个大模型领域的技术进步和应用创新。

github:https://github.com/THUDM/LVBench

项目主页:https://lvbench.github.io

论文地址:https://arxiv.org/abs/2406.08035

© 版权声明：

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/j4hqletp

暂无评论

none

暂无评论...

据报道，OpenAI携手博通，共同开发定制化AI推理芯片。

8浏览 0点赞 6个月前

据报道，OpenAI携手博通，共同开发定制化AI推理芯片。

云成本优化初创公司 Cast AI 完成 3500 万美元融资

12浏览 0点赞 1年前

云成本优化初创公司 Cast AI 完成 3500 万美元融资

商汤“如影”发布AI冰冰：央视记者王冰冰数字人正式亮相

3浏览 0点赞 10个月前

商汤“如影”发布AI冰冰：央视记者王冰冰数字人正式亮相

小米王腾透露：小米15系列标配12GB内存，以满足端侧AI对更高内存的需求

5浏览 0点赞 6个月前

小米王腾透露：小米15系列标配12GB内存，以满足端侧AI对更高内存的需求

Worldline 联手 FinbotsAI，为金融机构赋能 AI 驱动的信用评分模型

5浏览 0点赞 7个月前

Worldline 联手 FinbotsAI，为金融机构赋能 AI 驱动的信用评分模型

Chrome地址栏迎来低调更新：只需@一下，即可调用Gemini AI助手，体验AI新功能！

5浏览 0点赞 8个月前

Chrome地址栏迎来低调更新：只需@一下，即可调用Gemini AI助手，体验AI新功能！

中国AIGC App月活跃用户数排行榜Top10：DeepSeek以1.8亿位居榜首

0浏览 0点赞 1个月前

中国AIGC App月活跃用户数排行榜Top10：DeepSeek以1.8亿位居榜首

李开复预测：人工智能技术有望在2025年达到甚至超越博士水平

5浏览 0点赞 10个月前

李开复预测：人工智能技术有望在2025年达到甚至超越博士水平