C114通信網(wǎng)  |  通信人家園

人工智能
2025/1/15 13:06

Kimi多模態(tài)圖片理解模型API發(fā)布,1M tokens定價12元起

IT之家  汪淼

月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API,全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview(以下簡稱“Vision 模型”)完善了 moonshot-v1 模型系列的多模態(tài)能力。

模型能力說明

圖像識別

Vision 模型具備圖像識別能力,能夠識別出圖像中的復雜細節(jié)和細微的差別,無論是食物還是動物,能夠區(qū)分出相似但又不相同的對象。

下圖示例中,官方拼湊了 16 張相似的人眼較難區(qū)分的藍莓松餅和吉娃娃圖片,由 Vision 模型來識別并按順序標記圖片類型,無論是藍莓松餅還是吉娃娃,模型都能精確地區(qū)分和識別。

文字識別和理解

Vision 模型具備高級圖像識別能力,在 OCR 文字識別和圖像理解場景中,比普通的文件掃描和 OCR 識別軟件更加準確,例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準確識別

以這張《某學生期末考試成績》柱狀圖為例,官方讓模型提取分析考試成績,并從美學風格的角度分析一下該柱狀圖。Vision 模型也能夠精準地識別出柱狀圖中每個科目名稱對應的分數(shù)數(shù)值并做分數(shù)對比,同時可以識別出該柱狀圖的樣式格式和顏色等。

模型計費

Vision 模型實行按量計費方式,單張圖片按 1024 tokens 合并計算在 Input 請求的 tokens 用量中,模型調(diào)用的價格根據(jù)選擇的模型而不同,IT之家附具體區(qū)分如下:

 

模型 計費單位 價格
moonshot-v1-8k-vision-preview 1M tokens ¥12.00
moonshot-v1-32k-vision-preview 1M tokens ¥24.00
moonshot-v1-128k-vision-preview 1M tokens ¥60.00

 

模型限制說明

Vision 視覺模型支持的特性包括:

多輪對話

流式輸出

工具調(diào)用

JSON Mode

Partial Mode

以下功能暫未支持或部分支持:

聯(lián)網(wǎng)搜索:不支持

Context Caching:不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache,但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型

URL 格式的圖片:不支持,目前僅支持使用 base64 編碼的圖片內(nèi)容

其他平臺更新

支持組織項目管理功能

支持一個企業(yè)實體認證多賬號

增加 File 文件資源管理功能:直觀管理查看文件資源

優(yōu)化資源管理列表鼠標懸浮復制

Context Caching 功能已放開給全量用戶

Cache 續(xù)期不再收取創(chuàng)建的費用

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141