Meta AI 的研究人員提出了一種名為 LIGER 的新型 AI 模型,巧妙地結(jié)合密集檢索和生成檢索的優(yōu)勢(shì),顯著提升了生成式推薦系統(tǒng)的性能。
LIGER 有效地解決了傳統(tǒng)推薦系統(tǒng)在計(jì)算資源、存儲(chǔ)需求和冷啟動(dòng)項(xiàng)目處理上的難題,為構(gòu)建更高效、更精準(zhǔn)的推薦系統(tǒng)提供了新的思路。
項(xiàng)目背景
想要把用戶與相關(guān)內(nèi)容、產(chǎn)品或服務(wù)聯(lián)系起來,推薦系統(tǒng)是其中重要一環(huán)。該領(lǐng)域的常規(guī)方法是密集檢索(Dense retrieval),利用序列建模來計(jì)算項(xiàng)目和用戶表示。
但這種方法由于要嵌入每個(gè)項(xiàng)目,因此需要大量的計(jì)算資源和存儲(chǔ)。隨著數(shù)據(jù)集的增長,這些要求變得越來越繁重,限制了它們的可擴(kuò)展性。
而另一種新興的方法叫做生成檢索(Generative retrieval),通過生成模型預(yù)測(cè)項(xiàng)目索引來減少存儲(chǔ)需求,但該方式存在性能問題,在冷啟動(dòng)項(xiàng)目(用戶交互有限的新項(xiàng)目)中表現(xiàn)尤為明顯。
項(xiàng)目介紹
Meta AI 公司聯(lián)合威斯康星大學(xué)麥迪遜分校、ELLIS Unit、LIT AI Lab、機(jī)器學(xué)習(xí)研究所、JKU Linz 等機(jī)構(gòu),混合密集檢索和生成檢索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。
該模型混合了生成檢索的計(jì)算效率和密集檢索的精度,利用生成檢索生成候選集、語義 ID 和文本屬性的項(xiàng)目表示,再通過密集檢索技術(shù)進(jìn)行精練,平衡了效率和準(zhǔn)確性。
LIGER 采用雙向 Transformer 編碼器和生成解碼器。密集檢索部分整合了項(xiàng)目文本表示、語義 ID 和位置嵌入,并使用余弦相似度損失進(jìn)行優(yōu)化。生成部分使用波束搜索根據(jù)用戶交互歷史預(yù)測(cè)后續(xù)項(xiàng)目的語義 ID。
通過這種混合推理過程,LIGER 降低了計(jì)算需求,同時(shí)保持了推薦質(zhì)量。LIGER 還能很好地泛化到未見過的項(xiàng)目,解決了先前生成模型的關(guān)鍵限制。
LIGER 性能
在 Amazon Beauty、Sports、Toys 和 Steam 等基準(zhǔn)數(shù)據(jù)集上的評(píng)估顯示,LIGER 的性能持續(xù)優(yōu)于 TIGER 和 UniSRec 等現(xiàn)有最先進(jìn)模型。
例如,在 Amazon Beauty 數(shù)據(jù)集上,LIGER 對(duì)冷啟動(dòng)項(xiàng)目的 Recall@10 得分為 0.1008,而 TIGER 為 0.0。在 Steam 數(shù)據(jù)集上,LIGER 的 Recall@10 達(dá)到了 0.0147,同樣優(yōu)于 TIGER 的 0.0。
隨著生成方法檢索的候選數(shù)量增加,LIGER 與密集檢索的性能差距縮小,展現(xiàn)了其適應(yīng)性和效率。