隨著文生文、文生圖、文生視頻等領(lǐng)域應(yīng)用成熟,隨之而來(lái)的信任危機(jī)也同步爆發(fā)。為此,騰訊今日宣布推出 AI 生成文本檢測(cè)/ AI 生成圖像檢測(cè)工具。
騰訊官方稱,雖然 AI 生成的圖像在細(xì)節(jié)紋理上越來(lái)越逼真,但依然有跡可循,朱雀實(shí)驗(yàn)室研發(fā)了一款 AI 生成圖片檢測(cè)系統(tǒng),將圖片上傳 —— 等待驗(yàn)證 —— 判斷是否由 AI 生成,整個(gè)過(guò)程只有幾秒鐘,就能用魔法打敗魔法 —— 用 AI“檢測(cè)”AI 生成。
究其背后的檢測(cè)邏輯,主要是捕捉真實(shí)圖片與 AI 生圖之間的差異來(lái)進(jìn)行區(qū)分,例如 AI 生圖有時(shí)不符合常識(shí)邏輯、AI 生成圖片需要“加水印”、AI 生成圖片包含隱層特征。
騰訊指出,鑒別 AI 生成往往不能依靠單一依據(jù)。因此,AI 生成圖片檢測(cè)系統(tǒng)需要利用 AI 模型來(lái)捕捉真實(shí)圖片與 AI 生圖之間各類特征的差異,包括圖片的紋理、語(yǔ)義及隱形特征。
為了提升系統(tǒng)的檢測(cè)效果,其使用了 140 萬(wàn)份正負(fù)樣本進(jìn)行模型訓(xùn)練,考慮了多種生成內(nèi)容場(chǎng)景,如人體、人像、風(fēng)景、地標(biāo)、植物、電影、游戲、新聞等,最終測(cè)試檢出率達(dá) 95% 以上,還在持續(xù)優(yōu)化提升中。
朱雀實(shí)驗(yàn)室還同步開(kāi)發(fā)了文本檢測(cè)系統(tǒng),通過(guò)對(duì) AI 生成文本和人類寫作內(nèi)容的海量數(shù)據(jù)學(xué)習(xí)來(lái)實(shí)現(xiàn)文本檢測(cè)。
與圖片內(nèi)容檢測(cè)一樣,文本檢測(cè)系統(tǒng)背后也搜集了大量正負(fù)樣本進(jìn)行訓(xùn)練,涵蓋不同領(lǐng)域、不同大語(yǔ)言模型的生成文本。此外,還運(yùn)用了對(duì)比的方式,將檢測(cè)文本與大模型預(yù)測(cè)內(nèi)容進(jìn)行重疊度對(duì)比,來(lái)推斷文章的 AI 生成概率,以增強(qiáng)對(duì)未見(jiàn)過(guò)數(shù)據(jù)的檢測(cè)能力。
目前,AI 生成文本檢測(cè)系統(tǒng)涵蓋了新聞通訊、公文、小說(shuō)、散文等多樣化文體,接下來(lái)還會(huì)對(duì)詩(shī)歌等體裁進(jìn)行補(bǔ)強(qiáng),用于提高文本識(shí)別的準(zhǔn)確率。