PRefLexOR MIT团队研发的新型自学习人工智能框架PRefLexOR融合了偏好优化和强化学习概念,通过推理提升自我学习能力。其核心算法是递归推理,模型通过多轮推理、反思和优化生成更准确结果。使用基于优势比偏好优化(ORPO)和直接偏好优化(DPO)的技术,协调推理路径并提升质量。 PRefLexOR的功能包括动... AI工具箱8个月前