

当前,名为Arcee Spark的模型基于Qwen2架构,它在一个包含180万个令牌的数据集上进行了预训练,并且能够处理长达128k个令牌的上下文。Arcee Spark的能力在于,它能够在处理长文本时记住较早的信息,这在需要长期记忆的任务中非常有用。
在MT-Bench基准测试中,该模型在推理能力方面表现出色,甚至在某些特定任务上超越了GPT-3.5。值得注意的是,Arcee Spark是一个70亿参数的模型,它展示了Qwen2在处理长上下文方面的强大能力和效率。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/vb0ou2ah暂无评论...