高質(zhì)量、大規(guī)模、安全可信的語料數(shù)據(jù)資源是AI時代的重要基石。7月6日上午,2024世界人工智能大會語料主題論壇在上海成功舉辦,上海市政府副秘書長莊木弟出席論壇并致辭,中國科學(xué)院院士鄂維南作主旨演講。上海市各相關(guān)部門代表、上海人工智能實驗室、人民網(wǎng)、上海報業(yè)、上海圖書館、上海信投、上海算法創(chuàng)新研究院、中國信通院、復(fù)旦大學(xué)、華東師范大學(xué)、上海資產(chǎn)管理協(xié)會、中國銀行、招商銀行,國泰君安,以及近1000家大模型語料生態(tài)企業(yè)共同參會。
本次論壇以“語料筑基,智生時代”為主題,圍繞高質(zhì)量語料數(shù)據(jù)如何高效供給賦能大模型產(chǎn)業(yè)發(fā)展,向市場傳遞專業(yè)化、鏈接型、前瞻性的語料生態(tài)設(shè)計理念。
會上,中國工程院院士鄂維南,人民網(wǎng)黨委書記、董事長葉蓁蓁發(fā)表主旨演講。華為、階躍星辰等大模型語料生態(tài)企業(yè)通過案例分享、圓桌共話的形式暢談了各自對大模型產(chǎn)業(yè)發(fā)展的創(chuàng)新想法和實踐。庫帕思公司攜手大模型語料生態(tài)伙伴,集中發(fā)布了一批大模型語料成果。
上海市政府副秘書長莊木弟在致辭中表示,語料數(shù)據(jù)是大模型訓(xùn)練的重要“燃料”,高質(zhì)量的語料對于大模型在各行各業(yè)的應(yīng)用十分關(guān)鍵,有助于大模型更好地適配實際應(yīng)用場景,加快實現(xiàn)人工智能賦能千行百業(yè)的愿景。
未來,上海將圍繞戰(zhàn)略性語料資源重點發(fā)力,為大模型創(chuàng)新發(fā)展,創(chuàng)造更好的語料基礎(chǔ)的環(huán)境:夯實語料數(shù)據(jù)基座,發(fā)揮大模型語料運行平臺核心樞紐作用,匯聚基礎(chǔ)性綜合語料資源,配置行業(yè)性、專業(yè)性語料資源;厚植語料應(yīng)用場景,圍繞大模型訓(xùn)練需求,保障多知識、多模態(tài)、標準化的高質(zhì)量語料數(shù)據(jù)供給,賦能大模型行業(yè)應(yīng)用落地;營造語料良好生態(tài),緊密鏈接大模型語料供給方、需求方、加工方、技術(shù)策源方、專家智庫等主體,針對語料領(lǐng)域的好企業(yè)和好產(chǎn)品,著力制定認證標準、開展品牌建設(shè),不斷擴大朋友圈。
語料運營平臺1.0上線,首批十大高質(zhì)量語料產(chǎn)品發(fā)布。
對照最高標準、最好水平,打造世界一流的語料樞紐,實現(xiàn)更高效率、更高質(zhì)量的語料供給,會上發(fā)布了“語料運營平臺1.0”,實現(xiàn)了面向語料數(shù)據(jù)“采、洗、標、測、用”五位一體的工具鏈能力。
為打響高質(zhì)量語料品牌,進一步激發(fā)市場主體語料創(chuàng)新活力,增強供給側(cè)能級,加速醫(yī)療健康、城市交通、消費零售、金融、影音等重點行業(yè)的大模型產(chǎn)業(yè)發(fā)展。會上,庫帕思攜手咪咕視頻、寶信軟件、復(fù)旦大學(xué)智能醫(yī)學(xué)研究院、上海工創(chuàng)中心、匯納科技、萬達信息、DGC數(shù)傳集團、文遠知行、文因互聯(lián)、上海電科智能、海天瑞生集中發(fā)布了十大語料數(shù)據(jù)產(chǎn)品。
首個語料庫建設(shè)導(dǎo)則面世,金融、教育、生命健康三大領(lǐng)域技術(shù)白皮書發(fā)布
語料數(shù)據(jù)是人工智能研究和應(yīng)用不可或缺的資源,高質(zhì)量語料庫更是人工智能賦能新質(zhì)生產(chǎn)力的關(guān)鍵。大模型賦能千行百業(yè)需要構(gòu)建與場景適配的語料體系需要規(guī)則與實踐的“并跑”。本次論壇中還發(fā)布了金融、生命健康、教育三項行業(yè)語料術(shù)白皮書。
《高質(zhì)量金融語料技術(shù)白皮書》聚焦銀行、證券、保險、基金等行業(yè)實踐,重新定義了高質(zhì)量金融語料數(shù)據(jù)集的內(nèi)涵和外延,形成了基于金融領(lǐng)域知識體系的“語料魔方”方法論。
《教育人工智能大模型數(shù)據(jù)治理與共享技術(shù)白皮書》對標國內(nèi)外教育數(shù)據(jù)的系列政策、標準,確立了教育行業(yè)語料數(shù)據(jù)的標準用例與價值體系,形成了一套教育AI大模型數(shù)據(jù)治理與共享技術(shù)標準。
《高質(zhì)量生命健康語料技術(shù)白皮書》從基礎(chǔ)醫(yī)學(xué)、藥物研發(fā)、臨床醫(yī)學(xué)、健康管理、中醫(yī)中藥五個方向確立了生命健康語料庫的路線圖,創(chuàng)新了從尋源、清洗到標注、測試的工具體系。
為實現(xiàn)“語料數(shù)據(jù)資源共建共享”“鼓勵多元主體共同推動高水平語料數(shù)據(jù)要素建設(shè)”的目標,庫帕思公司會同覆蓋多模態(tài)數(shù)據(jù)資源供應(yīng)、加工、應(yīng)用和運營全鏈的近二十家企業(yè)共同發(fā)布了團體標準《語料庫建設(shè)導(dǎo)則》。
50余單位共同發(fā)起語料倡議,10家企業(yè)入選2024語料風(fēng)云榜
建立模型訓(xùn)練、語料供給、學(xué)術(shù)研究、第三方服務(wù)等多方機構(gòu)合作機制,攜手打造資源共享、互利共贏、國際融通的“語料生態(tài)圈”,是眾多語料生態(tài)伙伴共同的愿景。為了進一步強化語料生態(tài)全產(chǎn)業(yè)鏈各主體間的交流合作,營造有利于我國大模型產(chǎn)業(yè)生態(tài)健康發(fā)展的環(huán)境,會上,50余家單位共同發(fā)起“語料生態(tài)服務(wù)大模型可持續(xù)發(fā)展倡議”,共同倡導(dǎo)攜手為我國大模型產(chǎn)業(yè)發(fā)展持續(xù)提供高質(zhì)量語料。
為加速促進大模型語料生態(tài)企業(yè)按照高標準發(fā)現(xiàn)“好產(chǎn)品”、培育“好企業(yè)”,本次論壇上,由大模型語料數(shù)據(jù)聯(lián)盟正式發(fā)布“2024語料風(fēng)云榜”,本榜單經(jīng)過兩個月嚴格的征集和評選,最終在眾多參與企業(yè)中遴選出了10家上榜企業(yè)。他們提供了高質(zhì)量和多樣化的數(shù)據(jù)集來支持模型訓(xùn)練和優(yōu)化,承擔(dān)了中國大模型開發(fā)中數(shù)據(jù)的收集、清洗、標注和管理,為AI算法提供必需的語料資源,顯著提升中國大模型的性能和應(yīng)用效果。首屆語料風(fēng)云榜上榜企業(yè)有:上海恒生聚源數(shù)據(jù)服務(wù)有限公司、上海本原智數(shù)科技有限公司、北京云測信息技術(shù)有限公司、上海蜜度科技股份有限公司、星環(huán)信息科技(上海)股份有限公司、數(shù)據(jù)堂(北京)科技股份有限公司、整數(shù)智能信息技術(shù)(杭州)有限責(zé)任公司、標貝(青島)科技有限公司、北京海天瑞聲科技股份有限公司、天娛數(shù)字科技(大連)集團股份有限公司。
大模型與大數(shù)據(jù)庫雙輪驅(qū)動的人工智能方法
隨著AI技術(shù)的不斷進步和生態(tài)合作的深化,未來數(shù)據(jù)庫將更加智能、靈活和強大,為人工賦能千行百業(yè)的實體經(jīng)濟發(fā)展提供堅實的基礎(chǔ)。主旨演講環(huán)節(jié)中,中國科學(xué)院院士鄂維南先生帶來了主題為“大模型與大數(shù)據(jù)庫雙輪驅(qū)動的人工智能方法”的精彩演講。鄂院士分享了如何將大模型方法和高性能的通用AI數(shù)據(jù)庫方法相結(jié)合,來建立高效率、高準確率、低門檻、低成本的人工智能系統(tǒng)。
基于價值對齊的模型發(fā)展與語料數(shù)據(jù)的創(chuàng)新供給
與價值對齊是大模型可持續(xù)演進的基石主旨環(huán)節(jié)中,人民網(wǎng)黨委書記、董事長葉蓁蓁先生分享了“基于價值對齊的模型發(fā)展與語料數(shù)據(jù)的創(chuàng)新供給”。他重點分享了人民網(wǎng)在主流價值對齊方面的實踐與經(jīng)驗,基于多維度價值對齊體系的語料庫,讓大模型像人一樣“有德、有趣、有序、有品、有用”
大模型語料生態(tài)企業(yè)案例分享
企業(yè)案例分享環(huán)節(jié)中,兩家大模型語料生態(tài)企業(yè)代表從企業(yè)如何在AIGC時代通過提升高質(zhì)量語料的開發(fā)利用來賦能業(yè)務(wù)發(fā)展。
上海階躍星辰智能科技有限公司副總裁李璟以“大模型時代的產(chǎn)業(yè)落地新路徑”為題,分享了階躍在大模型語料生態(tài)領(lǐng)域的創(chuàng)新應(yīng)用,他表示大模型技術(shù)與語料是相輔相成的,共同構(gòu)建了人工智能領(lǐng)域的重要基石。語料作為大模型的養(yǎng)料,其質(zhì)量和多樣性直接影響模型的智能水平。階躍星辰將攜手行業(yè)伙伴,共建多元開放的合作關(guān)系,促進模型生態(tài)的繁榮和發(fā)展。
隨后,游族網(wǎng)絡(luò)CEO陳芳以“優(yōu)質(zhì)語料筑基,打造AI文化娛樂產(chǎn)業(yè)生態(tài)”為題分享了游族在文化娛樂產(chǎn)業(yè)里大模型語料又將面臨何種機遇和發(fā)展未來。他表示隨著AIGC時代的到來,人工智能技術(shù)正在成為數(shù)字文化產(chǎn)業(yè)發(fā)展的關(guān)鍵要素和澎湃動能,高質(zhì)量語料是人工智能突破式發(fā)展的核心因素之一,其中互動娛樂語料具有極高的經(jīng)濟和社會價值,游族正在通過“小游醬”AI玩伴、企業(yè)內(nèi)知識庫等多方面創(chuàng)新實踐,將優(yōu)質(zhì)語料多方位應(yīng)用于文化娛樂產(chǎn)業(yè),實現(xiàn)企業(yè)在AIGC時代的轉(zhuǎn)型和加速發(fā)展。
共話未來-我們需要怎樣的語料供給
語料數(shù)據(jù)在大模型開發(fā)中起到了決定性作用,是模型能力提升的關(guān)鍵基礎(chǔ)。那么到底在提升通用大模型及垂直行業(yè)模型應(yīng)用能力方面什么樣的語料供給是最有價值的又最被需要呢?在圓桌環(huán)節(jié)中,來自上海本原智數(shù)的創(chuàng)始人李逆勇作為圓桌主持人提出了大模型的出現(xiàn)對于語料供給帶來了哪些新的機會和挑戰(zhàn)、數(shù)據(jù)的自動化標注與人工標注現(xiàn)況趨勢及合成數(shù)據(jù)的未來三大問題。圓桌嘉賓華為上海代表處戰(zhàn)略官房思哲、北京星塵紀元智能科技有限公司總裁章磊、標貝(青島)科技有限公司聯(lián)合創(chuàng)始人&首席技術(shù)官李秀林、智境云創(chuàng)創(chuàng)始人&CEO王智武、中云開源數(shù)據(jù)技術(shù)(上海)有限公司創(chuàng)始人、CEO陳剛進行了觀點分享和思想碰撞。
本次會議由大模型語料數(shù)據(jù)聯(lián)盟、上海庫帕思科技有限公司、上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會、上海資產(chǎn)管理協(xié)會承辦,中國聯(lián)合網(wǎng)絡(luò)通信有限公司上海市分公司、上海報業(yè)集團、中國信通院上海工創(chuàng)中心、上海億歐網(wǎng)絡(luò)科技有限公司、上海市國資委系統(tǒng)中青年知識分子聯(lián)誼會、民建上?苿(chuàng)工委協(xié)辦,并得到了商湯科技、游族網(wǎng)絡(luò)、階躍星辰、稀宇極智、智能投研技術(shù)聯(lián)盟(ITL)等眾多單位的鼎力支持。