

当前行业对大型语言模型的需求日益增长,如何评判一个”好用”的大模型已成为业界关注的焦点。近日,一款名为HHEM-2.1-Open的中文评测基准问世,旨在评估AI模型的GLM-4-9B等大模型在实际应用中的能力。
就评测结果而言,在参与HHEM评估的85个主流大模型中,GLM-4-9B在98.7%的指标上超越了100%的开源基准模型。这意味着该模型的性能提升显著,仅有1.3%的指标未达到领先水平,这与部分闭源的OpenAI的GPT系列及Google的Gemini系列模型相当。
从这个角度来看,选择合适的大模型应综合考量”好用”的标准,既要关注AI技术的固有优势,也要兼顾特定场景下的实际需求。避免过度追求AI技术在模型层面的领先地位,而忽略了其在实际应用中的价值。
总而言之,在AI技术日新月异的今天,GLM-4-9B模型的出现为我们评估AI能力提供了一个新的视角,同时也提醒我们在关注AI发展的同时,更要注重AI在各个领域的实际应用和价值。
快讯中提到的AI工具

OpenAI
致力于创造对全人类有益的安全 AGI
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/ceca5d77暂无评论...