2024/11/27 13:39

Hugging Face發(fā)布SmolVLM開源AI模型：20億參數(shù)，用于端側(cè)推理，體積小、速度快

IT之家故淵

Hugging Face 平臺昨日（11 月 26 日）發(fā)布博文，宣布推出 SmolVLM AI 視覺語言模型（VLM），僅有 20 億參數(shù)，用于設備端推理，憑借其極低的內(nèi)存占用在同類模型中脫穎而出。

官方表示 SmolVLM AI 模型的優(yōu)點在于體積小、速度快、內(nèi)存高效，并且完全開源，所有模型檢查點、VLM 數(shù)據(jù)集、訓練配方和工具均在 Apache 2.0 許可證下發(fā)布。

SmolVLM AI 模型共有 SmolVLM-Base（用于下游微調(diào)）、SmolVLM-Synthetic（基于合成數(shù)據(jù)微調(diào)）和 SmolVLM-Instruct（指令微調(diào)版本，可以直接用于交互式應用）三個版本。

架構

SmolVLM 最大的特點在于巧妙的架構設計，借鑒了 Idefics3，使用了 SmolLM2 1.7B 作為語言主干，通過像素混洗策略將視覺信息的壓縮率提高到 9 倍。

訓練數(shù)據(jù)集包括 Cauldron 和 Docmatix，并對 SmolLM2 進行了上下文擴展，使其能夠處理更長的文本序列和多張圖像。該模型通過優(yōu)化圖像編碼和推理過程，有效降低了內(nèi)存占用，解決了以往大型模型在普通設備上運行緩慢甚至崩潰的問題。

內(nèi)存

SmolVLM 將 384x384 像素的圖像塊編碼為 81 個 tokens，因此在相同測試圖片下，SmolVLM 僅使用 1200 個 tokens，而 Qwen2-VL 則使用 1.6 萬個 tokens。

吞吐量

SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多個基準測試中表現(xiàn)出色，且處理速度相比較 Qwen2-VL，預填充（prefill）吞吐量快 3.3 到 4.5 倍，生成吞吐量快 7.5 到 16 倍。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

相關鏈接

測試

Hugging Face發(fā)布SmolVLM開源AI模型：20億參數(shù)，用于端側(cè)推理，體積小、速度快