月之暗面发布Kimi多模态图片理解模型API

3个月前发布AI俱乐部
10 0 0
月之暗面发布Kimi多模态图片理解模型API的封面图

在2025年1月15日,月之暗面发布了名为moonshot-v1-vision-preview的视觉预览模型,同时发布了moonshot-v1模型相关的计费方案,这意味着Kimi具备了理解图像的能力。

Vision模型具备识别并理解图片内容的功能,它不仅可以识别图片中的物体,还能理解图片中的场景,甚至能判断出图片是否包含不适宜的内容。总之,它能识别图片里有什么,也能理解图片表达了什么。据悉,该模型支持一次性处理16张图片,Vision模型还支持对图片进行理解和信息提取。

Vision模型的一大亮点在于其强大的图文识别能力,不仅可以进行OCR文字识别,还能结合图像内容进行深入分析。无论是复杂场景的文字提取还是OCR识别结果的优化,它都能胜任。此外,它还能识别手写字体、表格内容以及各种复杂版面的信息。

Vision系列的模型还支持多种实用功能,例如文档总结、海报生成、代码识别、JSON Mode、Partial Mode等。如果不想每次都重新上传大量图片,可以使用Context Cache功能,即利用缓存来存储历史对话中的图片,不必每次都上传,从而提升Vision模型的使用效率。Vision模型也支持URL链接形式的图片输入,或者直接使用base64编码的图片数据。

模型定价

模型 价格 备注
moonshot-v1-8k-vision-preview 每百万Tokens 12元
moonshot-v1-32k-vision-preview 每百万Tokens 24元
moonshot-v1-128k-vision-preview 每百万Tokens 60元

© 版权声明:
本文地址:https://aidh.net/kuaixun/862av05f

暂无评论

none
暂无评论...