清华北大联合发布长视频理解基准测试LVBench

9个月前发布AI俱乐部
2 0 0
清华北大联合发布长视频理解基准测试LVBench的封面图

站长之家(ChinaZ.com)6月17日 消息:近日,清华大学、上海交通大学与一流科技携手,共同发布了一项针对LVBench大语言模型的评测基准,旨在全面评估大模型在现实场景中的应用能力。当前,该项目已经在Github上开源。

据悉,该评测基准涵盖了多个贴近实际的复杂应用场景,旨在评估模型在真实业务环境下的性能表现。与传统的benchmark评测不同的是,LVBench更注重考察模型在解决实际问题时的能力,而非仅仅是理论上的指标。

本次发布的评测内容包括6个核心能力维度和21个细分能力,覆盖了内容生成、代码编写、数据分析以及日常应用等多个领域。该评测着重关注大模型在复杂任务中的表现,尤其是在需要长期规划、多轮迭代和工具调用的场景下。通过这些细致的评估,LVBench旨在全面衡量模型在实际应用中的能力。

LVBench基准的推出,旨在弥补当前大语言模型评测体系中的不足,它不仅考察模型在传统任务中的表现,更关注其在实际应用中的综合能力,涵盖了对齐、规划能力、工具使用和长期记忆等关键方面,为大模型的发展和应用提供更全面的参考依据。

通过这一基准的评估,开发者可以更深入地了解大模型在实际应用中的优势与不足,从而更好地优化模型性能,提高其在复杂场景下的适应性和实用性。同时,它也有助于推动整个大模型领域的技术进步和应用创新。

github:https://github.com/THUDM/LVBench

项目主页:https://lvbench.github.io

论文地址:https://arxiv.org/abs/2406.08035

© 版权声明:
本文地址:https://aidh.net/kuaixun/j4hqletp

暂无评论

none
暂无评论...