月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API,全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview(以下簡稱“Vision 模型”)完善了 moonshot-v1 模型系列的多模態(tài)能力。
模型能力說明
圖像識別
Vision 模型具備圖像識別能力,能夠識別出圖像中的復雜細節(jié)和細微的差別,無論是食物還是動物,能夠區(qū)分出相似但又不相同的對象。
下圖示例中,官方拼湊了 16 張相似的人眼較難區(qū)分的藍莓松餅和吉娃娃圖片,由 Vision 模型來識別并按順序標記圖片類型,無論是藍莓松餅還是吉娃娃,模型都能精確地區(qū)分和識別。
文字識別和理解
Vision 模型具備高級圖像識別能力,在 OCR 文字識別和圖像理解場景中,比普通的文件掃描和 OCR 識別軟件更加準確,例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準確識別。
以這張《某學生期末考試成績》柱狀圖為例,官方讓模型提取分析考試成績,并從美學風格的角度分析一下該柱狀圖。Vision 模型也能夠精準地識別出柱狀圖中每個科目名稱對應的分數(shù)數(shù)值并做分數(shù)對比,同時可以識別出該柱狀圖的樣式格式和顏色等。
模型計費
Vision 模型實行按量計費方式,單張圖片按 1024 tokens 合并計算在 Input 請求的 tokens 用量中,模型調(diào)用的價格根據(jù)選擇的模型而不同,IT之家附具體區(qū)分如下:
模型 | 計費單位 | 價格 |
moonshot-v1-8k-vision-preview | 1M tokens | ¥12.00 |
moonshot-v1-32k-vision-preview | 1M tokens | ¥24.00 |
moonshot-v1-128k-vision-preview | 1M tokens | ¥60.00 |
模型限制說明
Vision 視覺模型支持的特性包括:
多輪對話
流式輸出
工具調(diào)用
JSON Mode
Partial Mode
以下功能暫未支持或部分支持:
聯(lián)網(wǎng)搜索:不支持
Context Caching:不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache,但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型
URL 格式的圖片:不支持,目前僅支持使用 base64 編碼的圖片內(nèi)容
其他平臺更新
支持組織項目管理功能
支持一個企業(yè)實體認證多賬號
增加 File 文件資源管理功能:直觀管理查看文件資源
優(yōu)化資源管理列表鼠標懸浮復制
Context Caching 功能已放開給全量用戶