2025/1/15 13:06

Kimi多模態(tài)圖片理解模型API發(fā)布，1M tokens定價(jià)12元起

IT之家汪淼

月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API，全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview（以下簡稱“Vision 模型”）完善了 moonshot-v1 模型系列的多模態(tài)能力。

模型能力說明

圖像識別

Vision 模型具備圖像識別能力，能夠識別出圖像中的復(fù)雜細(xì)節(jié)和細(xì)微的差別，無論是食物還是動物，能夠區(qū)分出相似但又不相同的對象。

下圖示例中，官方拼湊了 16 張相似的人眼較難區(qū)分的藍(lán)莓松餅和吉娃娃圖片，由 Vision 模型來識別并按順序標(biāo)記圖片類型，無論是藍(lán)莓松餅還是吉娃娃，模型都能精確地區(qū)分和識別。

文字識別和理解

Vision 模型具備高級圖像識別能力，在 OCR 文字識別和圖像理解場景中，比普通的文件掃描和 OCR 識別軟件更加準(zhǔn)確，例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準(zhǔn)確識別。

以這張《某學(xué)生期末考試成績》柱狀圖為例，官方讓模型提取分析考試成績，并從美學(xué)風(fēng)格的角度分析一下該柱狀圖。Vision 模型也能夠精準(zhǔn)地識別出柱狀圖中每個(gè)科目名稱對應(yīng)的分?jǐn)?shù)數(shù)值并做分?jǐn)?shù)對比，同時(shí)可以識別出該柱狀圖的樣式格式和顏色等。

模型計(jì)費(fèi)

Vision 模型實(shí)行按量計(jì)費(fèi)方式，單張圖片按 1024 tokens 合并計(jì)算在 Input 請求的 tokens 用量中，模型調(diào)用的價(jià)格根據(jù)選擇的模型而不同，IT之家附具體區(qū)分如下：

模型	計(jì)費(fèi)單位	價(jià)格
moonshot-v1-8k-vision-preview	1M tokens	￥12.00
moonshot-v1-32k-vision-preview	1M tokens	￥24.00
moonshot-v1-128k-vision-preview	1M tokens	￥60.00

模型限制說明

Vision 視覺模型支持的特性包括：

多輪對話

流式輸出

工具調(diào)用

JSON Mode

Partial Mode

以下功能暫未支持或部分支持：

聯(lián)網(wǎng)搜索：不支持

Context Caching：不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache，但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型

URL 格式的圖片：不支持，目前僅支持使用 base64 編碼的圖片內(nèi)容

其他平臺更新

支持組織項(xiàng)目管理功能

支持一個(gè)企業(yè)實(shí)體認(rèn)證多賬號

增加 File 文件資源管理功能：直觀管理查看文件資源

優(yōu)化資源管理列表鼠標(biāo)懸浮復(fù)制

Context Caching 功能已放開給全量用戶

Cache 續(xù)期不再收取創(chuàng)建的費(fèi)用

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

Cache

Kimi多模態(tài)圖片理解模型API發(fā)布，1M tokens定價(jià)12元起

Kimi多模態(tài)圖片理解模型API發(fā)布，1M tokens定價(jià)12元起