TinyR1-Preview

奇虎360与北京大学联合推出了TinyR1-Preview，这是一款推理模型，参数量为32B。该模型以低参数量实现了类似Deepseek-R1-671B的性能。在数学领域（AIME评测），TinyR1-Preview的得分为78.1，接近于原版R1（79.8分），远超过70B的Deepseek-R1-Distill-Llama（70.0分）。TinyR1-Preview采用了“分治-融合”策略，专注于数学、编程和科学三大领域的训练，并利用Mergekit工具进行智能融合，从而突破性能极限。

TinyR1-Preview的主要功能包括卓越的数学推理能力、高效的编程辅助、科学问题解答以及轻量级部署。设计思想是采用分治策略，分别训练不同领域的子模型，然后通过Mergekit工具智能融合，以提升整体性能。

在技术原理方面，TinyR1-Preview利用分治策略训练专用子模型，通过智能融合突破单一模型性能限制。同时采用蒸馏技术和优化训练，实现了仅32B参数量即可达到原版R1 95%以上性能的目标。

TinyR1-Preview适用于教育、科研、软件开发、企业和个人生活等多个领域应用。用户可访问HuggingFace模型库获取TinyR1-Preview模型。该模型对于教育工作者、科研人员、软件开发者和需要智能助手的个人用户具有广泛适用性。