C114通信網(wǎng)  |  通信人家園

專題
2025/4/14 16:12

基于大語言模型命名實(shí)體識(shí)別的AI智能問答優(yōu)化

郵電設(shè)計(jì)技術(shù)  施志雄,段該甲,馬龍軒,吳 婕

本文版權(quán)為《郵電設(shè)計(jì)技術(shù)》所有,如需轉(zhuǎn)載請聯(lián)系《郵電設(shè)計(jì)技術(shù)》編輯部

摘 要:為優(yōu)化AI問答效果,提出基于大語言模型命名實(shí)體識(shí)別的優(yōu)化方法。首先,通過在多種分割方式中選取最優(yōu)方案,結(jié)合詞語劃分概率判斷結(jié)果,對語料庫文本進(jìn)行分詞。其次,在預(yù)訓(xùn)練的BERT模型頂部添加線性層,并通過標(biāo)注數(shù)據(jù)對預(yù)測實(shí)體類別進(jìn)行微調(diào),將預(yù)測的同類標(biāo)簽詞組合得到命名實(shí)體。最后,通過上下文構(gòu)建整合用戶輸入與識(shí)別結(jié)果,將整合結(jié)果輸入模型生成回答,并結(jié)合用戶反饋優(yōu)化輸出。結(jié)果表明,所提方法生成結(jié)果與參考文本之間的語義相似度較高,具備較為理想的問答效果。

關(guān)鍵詞:大語言模型;BERT;命名實(shí)體識(shí)別;智能問答;分詞

doi:10.12045/j.issn.1007-3043.2025.03.015

引言

命名實(shí)體識(shí)別技術(shù)通過從文本中抽取出具有實(shí)際含義的語義實(shí)體,從而有效理解文本的實(shí)際含義。這一技術(shù)不僅能夠有效處理復(fù)雜多變的語言文本問題,還可以有效捕獲文本之間的依賴關(guān)系。然而,隨著文本分析技術(shù)應(yīng)用場景的不斷衍生,傳統(tǒng)的命名實(shí)體識(shí)別方法已難以滿足其高精度、高效率的需求,基于大語言模型的命名實(shí)體識(shí)別技術(shù)應(yīng)運(yùn)而生,成為當(dāng)前研究的熱點(diǎn)。在命名實(shí)體識(shí)別任務(wù)中,基于大語言模型的方法能夠有效捕捉文本數(shù)據(jù)之間的特征表示,可通過微調(diào)的方式在特定數(shù)據(jù)集上實(shí)現(xiàn)高精度識(shí)別,有效解決了傳統(tǒng)方法依賴人工特征和規(guī)則匹配帶來的局限性。

目前,智能問答與優(yōu)化技術(shù)已取得了一系列重要成果。例如,文獻(xiàn)[2]探討了使用檢索增強(qiáng)生成技術(shù)、大模型微調(diào)與閉環(huán)知識(shí)圖譜體系來提升政企營銷知識(shí)智能問答的精度,可提高至92.36%,并通過vLLM加速、數(shù)據(jù)安全、模塊化架構(gòu)等技術(shù)優(yōu)化系統(tǒng)性能與安全性,促進(jìn)大模型在企業(yè)中的實(shí)際應(yīng)用。但是該系統(tǒng)高度依賴高質(zhì)量的訓(xùn)練數(shù)據(jù)和知識(shí)圖譜的構(gòu)建,需要定期更新這些數(shù)據(jù)以保持系統(tǒng)的準(zhǔn)確性和時(shí)效性。文獻(xiàn)[3]設(shè)計(jì)了一種基于深度學(xué)習(xí)語義匹配(利用Bert模型和Faiss向量搜索)的FAQ問答系統(tǒng),旨在快速搭建特定領(lǐng)域的問答系統(tǒng),減少人工依賴,實(shí)現(xiàn)高效語義匹配和秒級查詢響應(yīng)。系統(tǒng)需要能夠處理大規(guī)模并發(fā)查詢,這對系統(tǒng)的擴(kuò)展性和性能提出了更高的要求。文獻(xiàn)[4]構(gòu)建了中醫(yī)藥循證指南知識(shí)圖譜,并探索了以其為知識(shí)庫搭建智能問答系統(tǒng),旨在增強(qiáng)臨床決策支持,同時(shí)提供中醫(yī)藥領(lǐng)域智能化信息服務(wù)的新思路和方法。但是,構(gòu)建高質(zhì)量的中醫(yī)藥循證指南知識(shí)圖譜需要專家知識(shí)和大量數(shù)據(jù),且過程復(fù)雜。此外,隨著新研究成果的出現(xiàn),知識(shí)圖譜需要不斷更新。文獻(xiàn)[5]提出COBERT系統(tǒng),利用檢索器與閱讀器雙算法,通過搜索冠狀病毒開放研究數(shù)據(jù)集挑戰(zhàn)賽(CORD-19)的文獻(xiàn),回答復(fù)雜查詢,以提供COVID-19最新研究成果的精確信息,輔助決策制定。用戶可能提出復(fù)雜或模糊的查詢,這要求系統(tǒng)能夠準(zhǔn)確理解用戶意圖并返回相關(guān)信息。然而,這在實(shí)際應(yīng)用中可能是一個(gè)挑戰(zhàn)。

本文選擇BERT作為命名實(shí)體識(shí)別的基礎(chǔ)模型,通過對其進(jìn)行微調(diào)處理,并基于識(shí)別出的命名實(shí)體,生成準(zhǔn)確、相關(guān)的回答。

點(diǎn)擊查看全文(PDF)>

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141