2025/4/22 11:29

力壓群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精確引用

IT之家故淵

最新報告指出，谷歌旗下的 Gemini 2.5 Pro 模型能準確解析 PDF 文檔的視覺結(jié)構(gòu)，實現(xiàn)精準的視覺引用功能，成為首款能完全理解 PDF 布局的 AI 模型。

IT之家注：谷歌于 3 月 25 日向付費用戶和開發(fā)者發(fā)布 Gemini 2.5 Pro 實驗模型，僅隔 4 天時間，谷歌便通過免費 Web 應用向全球用戶開放。

Gemini 2.5 Pro 不僅能提取 PDF 文檔中的文本內(nèi)容，還能理解其視覺布局，包括圖表、表格和整體排版。

谷歌在開發(fā)者文檔中表示，該模型具備“原生視覺”（Native Vision）能力，支持處理最多 3000 個 PDF 文件（每個文件上限為 1000 頁或 50MB），同時擁有 100 萬 token 的超大上下文窗口，未來計劃擴展至 200 萬 token。

AI 初創(chuàng)公司 Matrisk 的聯(lián)合創(chuàng)始人 Sergey Filimonov 特別贊揚了 Gemini 2.5 Pro 在 PDF 視覺引用上的表現(xiàn)。

Filimonov 指出，傳統(tǒng)的文本分割方法會切斷用戶與原文的視覺聯(lián)系，導致無法直觀驗證信息的來源。甚至在 ChatGPT 中，點擊引用也只能下載 PDF，迫使用戶自行判斷模型是否“幻覺”，這嚴重損害了用戶信任。

過去，引用文檔內(nèi)容往往只能高亮大段無關(guān)文本，精準度極低。Gemini 2.5 徹底改變這一現(xiàn)狀，它不僅能將提取的文本片段映射回原始 PDF 的確切位置，還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。

這種技術(shù)突破為用戶提供了直觀的視覺反饋，例如在詢問房屋費率變化時，系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)（如 15.4% 的費率變化），并標注來源依據(jù)。

這種清晰度和交互性是現(xiàn)有工具無法企及的。Gemini 2.5 不僅優(yōu)化了現(xiàn)有流程，更開啟了全新的文檔交互模式。

相比之下，Gemini 2.5 以 0.804 的 IoU（交并比）精度大幅領(lǐng)先其他模型，如 OpenAI 的 GPT-4o（0.223）和 Claude 3.7 Sonnet（0.210），展現(xiàn)出驚人的空間理解能力。

提供商	模型	IOU	簡評
Gemini	2.5 Pro	0.804	非常優(yōu)秀
Gemini	2.5 Flash	0.614	有時表現(xiàn)不錯
Gemini	2.0 Flash	0.395
OpenAI	gpt-4o	0.223
OpenAI	gpt-4.1	0.268
OpenAI	gpt-4.1-mini	0.253
Claude	3.7 Sonnet	0.210

Gemini 2.5 的潛力遠不止于文本定位。它還能從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù)，同時明確標注每個數(shù)據(jù)的來源位置，解決下游決策中因數(shù)據(jù)來源不明而產(chǎn)生的信任障礙。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

谷歌首推Gemini 2.5 Flash：成本爆降600%
快科技鹿角4-18
谷歌 Pixel 9a 加入安卓 16 Beta 測試計劃，可注冊手機靜候 OTA 推送
IT之家漾仔4-18
最強 AI 搜索模型：Perplexity 競技場奪冠，Sonar 力克谷歌 Gemini
IT之家故淵4-16
谷歌為安卓推新安全功能：手機連續(xù)鎖定三天將自動重啟
IT之家遠洋4-16

力壓群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精確引用

力壓群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精確引用