CogView4 CogView4是一款由智谱科技推出的开源文生图模型,拥有60亿个参数,能够支持中文输入和文字生成。在DPG-Bench基准测试中表现优异,综合评分排名第一,成为开源文生图模型领域的最新标杆。 这个模型支持中英双语输入,可以生成高质量的图像,也能够生成任意分辨率的图像,范围从512×512到2048... AI工具箱8个月前
VLM-R1 VLM-R1是浙江大学Om AI Lab推出的一款视觉语言模型,采用强化学习技术。该模型可以根据自然语言指令精确定位图像中的目标物体,例如根据描述"图中红色的杯子"找到对应图像区域。VLM-R1建立在Qwen2.5-VL架构基础上,结合了DeepSeek的R1方法,通过强化学习优化与监督微调(SFT... AI工具箱9个月前