C114通信網(wǎng)  |  通信人家園

資訊
2024/11/7 09:41

積極開源數(shù)據(jù)“藍(lán)! 為應(yīng)用發(fā)展“推波助瀾”

通信信息報(bào)  陳洲

近日,由中國通信標(biāo)準(zhǔn)化協(xié)會(huì)主辦、中國信通院承辦的2024 OSCAR開源產(chǎn)業(yè)大會(huì)在北京召開。中國電信天翼云科技有限公司打造的“TeleDB分布式數(shù)據(jù)庫在開源社區(qū)的特性貢獻(xiàn)案例”成功入選。這不僅是對(duì)天翼云TeleDB數(shù)據(jù)庫技術(shù)創(chuàng)新性的權(quán)威認(rèn)可,更提升了該數(shù)據(jù)庫在開源領(lǐng)域的行業(yè)影響力。

數(shù)據(jù)開源為何如此重要?

數(shù)據(jù)開源是指將數(shù)據(jù)集的訪問權(quán)限開放給公眾,允許任何人查看、分析和重用數(shù)據(jù),通常是通過互聯(lián)網(wǎng)進(jìn)行。數(shù)據(jù)開源的意義在于其對(duì)社會(huì)經(jīng)濟(jì)、科技創(chuàng)新和數(shù)字經(jīng)濟(jì)發(fā)展的深遠(yuǎn)影響。

從社會(huì)經(jīng)濟(jì)角度來看,數(shù)據(jù)開源打破了大型企業(yè)或機(jī)構(gòu)對(duì)數(shù)據(jù)的壟斷,使得小型企業(yè)能夠站在一個(gè)相對(duì)公平的起跑線上。

從科技創(chuàng)新角度看,以人工智能領(lǐng)域?yàn)槔,許多開源的圖像數(shù)據(jù)集、文本數(shù)據(jù)集等為研究人員提供了豐富的素材,他們可以在這些開源數(shù)據(jù)的基礎(chǔ)上進(jìn)行算法開發(fā)和模型訓(xùn)練,大大縮短了研究周期,加速了科技創(chuàng)新的速度。

從數(shù)字經(jīng)濟(jì)發(fā)展角度看,開源數(shù)據(jù)為數(shù)字產(chǎn)業(yè)生態(tài)中的各個(gè)環(huán)節(jié)提供了資源。

中國電信數(shù)據(jù)開源促應(yīng)用發(fā)展

2024年初,中國電信開源了百億級(jí)星辰語義大模型- 7B,成為第一家開源大模型的央企;前不久,中國電信又正式對(duì)外開源首個(gè)基于全國產(chǎn)化萬卡集群和國產(chǎn)深度學(xué)習(xí)框架訓(xùn)練的千億參數(shù)大模型——星辰語義大模型TeleChat2-115B;日前,由中國電信自主研發(fā)的星辰大模型在2024 OSCAR開源產(chǎn)業(yè)大會(huì)上榮獲信通院泰爾實(shí)驗(yàn)室“可信開源大模型成熟度能力”認(rèn)證,并被評(píng)為“2024年度央國企開源項(xiàng)目典型案例”。

在數(shù)據(jù)開源的具體實(shí)施過程中,中國電信特別注重應(yīng)用層面的創(chuàng)新與發(fā)展。

在面向產(chǎn)業(yè)應(yīng)用過程中,為了增強(qiáng)模型的商用性,星辰語義大模型在業(yè)界首次提出緩解多輪幻覺的解決方案,通過關(guān)鍵信息注意力增強(qiáng)技術(shù)、多輪知識(shí)記憶和強(qiáng)化技術(shù)等手段,幻覺率下降了40%。在價(jià)值對(duì)齊上,星辰語義大模型將指令分為不同的簇類,并從各個(gè)簇類中按照一定比例抽取具有代表性的指令集,再由標(biāo)注人員構(gòu)建相似的指令。這不僅可以較為全面地覆蓋人類指令,還能保證與微調(diào)階段數(shù)據(jù)具有相同的數(shù)據(jù)分布,更有利于模型在對(duì)齊階段的訓(xùn)練。

中國電信還聯(lián)合頭部生態(tài)機(jī)構(gòu),憑借在各行業(yè)深耕多年的優(yōu)勢(shì)和經(jīng)驗(yàn),依托基礎(chǔ)大模型,構(gòu)建了涵蓋教育、政務(wù)、應(yīng)急等20多個(gè)行業(yè)大模型,覆蓋全行業(yè)500多個(gè)應(yīng)用場景,有效滿足了各行各業(yè)對(duì)人工智能技術(shù)的多樣化需求。

將持續(xù)深化數(shù)據(jù)開源工作

中國電信的數(shù)據(jù)開源計(jì)劃和大模型能力的不斷迭代,標(biāo)志著中國電信在人工智能領(lǐng)域的戰(zhàn)略布局和對(duì)行業(yè)發(fā)展趨勢(shì)的積極響應(yīng)。通過這些措施,中國電信不僅提升了自身的技術(shù)競爭力,也為推動(dòng)整個(gè)行業(yè)的創(chuàng)新和數(shù)字化轉(zhuǎn)型做出了貢獻(xiàn)。

如今,作為最早布局并首先開源大模型的央企機(jī)構(gòu),中國電信正通過構(gòu)建高質(zhì)量數(shù)據(jù)集、成立專業(yè)公司和平臺(tái)、加速數(shù)據(jù)要素能力體系建設(shè)、跨行業(yè)數(shù)據(jù)結(jié)合、數(shù)據(jù)平臺(tái)和產(chǎn)品開發(fā)等等方式,為數(shù)據(jù)的開源夯實(shí)了發(fā)展基礎(chǔ)。

中國電信還不斷加速AI創(chuàng)新和應(yīng)用落地,積極通過開源推動(dòng)技術(shù)創(chuàng)新發(fā)展,持續(xù)加快前沿技術(shù)向產(chǎn)業(yè)落地的躍遷。

給作者點(diǎn)贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141