Mistral OCR 是 Mistral AI 最新推出的一款光学字符识别(OCR)工具,专为处理复杂文档而设计。该工具能够全面解析文档中的文本、图像、表格和数学公式,支持多种语言和字体,准确率高达99.02%。在各项基准测试中,Mistral OCR 的表现超越了 Google Document...
LCVD是四川大学推出的一款名为“光照可控视频扩散模型”(Lighting Controllable Video Diffusion Model)的肖像动画生成框架。该框架能够高保真地生成具有可控光照效果的肖像动画,通过将肖像的内在特征(如身份和外观)与外在特征(如姿态和光照)进行分离,并使用参考适...
VLM-R1是浙江大学Om AI Lab推出的一款视觉语言模型,采用强化学习技术。该模型可以根据自然语言指令精确定位图像中的目标物体,例如根据描述"图中红色的杯子"找到对应图像区域。VLM-R1建立在Qwen2.5-VL架构基础上,结合了DeepSeek的R1方法,通过强化学习优化与监督微调(SFT...