智谱GLM-4-9B模型：幻觉率低至1.3%，荣膺全球大模型评测桂冠

当前行业对大型语言模型的需求日益增长，如何评判一个”好用”的大模型已成为业界关注的焦点。近日，一款名为HHEM-2.1-Open的中文评测基准问世，旨在评估AI模型的GLM-4-9B等大模型在实际应用中的能力。

就评测结果而言，在参与HHEM评估的85个主流大模型中，GLM-4-9B在98.7%的指标上超越了100%的开源基准模型。这意味着该模型的性能提升显著，仅有1.3%的指标未达到领先水平，这与部分闭源的OpenAI的GPT系列及Google的Gemini系列模型相当。

从这个角度来看，选择合适的大模型应综合考量”好用”的标准，既要关注AI技术的固有优势，也要兼顾特定场景下的实际需求。避免过度追求AI技术在模型层面的领先地位，而忽略了其在实际应用中的价值。

总而言之，在AI技术日新月异的今天，GLM-4-9B模型的出现为我们评估AI能力提供了一个新的视角，同时也提醒我们在关注AI发展的同时，更要注重AI在各个领域的实际应用和价值。

快讯中提到的AI工具

OpenAI

致力于创造对全人类有益的安全 AGI

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ceca5d77