您的位置:首頁(yè) >科技 >

國(guó)內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已超60%

2025-08-23 12:37:27    來(lái)源:新華網(wǎng)
中文數(shù)據(jù)在國(guó)內(nèi)AI大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國(guó)家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示,目前國(guó)內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過(guò)60%,有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開(kāi)發(fā)和供給能力持續(xù)增強(qiáng),推動(dòng)我國(guó)人工智能模型性能快速提升。

國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏表示,我國(guó)人工智能的快速發(fā)展,與我國(guó)高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一,數(shù)據(jù)在推動(dòng)“人工智能+”過(guò)程中發(fā)揮著關(guān)鍵作用,高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。

“在人工智能時(shí)代,Token,也就是大家通常所說(shuō)的詞元,是處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時(shí)代大家所說(shuō)的‘流量’。”劉烈宏介紹,2024年初,我國(guó)日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬(wàn)億,一年半時(shí)間增長(zhǎng)了300多倍,反映了我國(guó)人工智能應(yīng)用規(guī)模的快速增長(zhǎng)。

據(jù)介紹,截至今年6月底,我國(guó)已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過(guò)3.5萬(wàn)個(gè),總體量超過(guò)了400PB(1PB可存儲(chǔ)約5億張2MB大小的高清照片),400PB的總量相當(dāng)于中國(guó)國(guó)家圖書館數(shù)字資源總量的140倍左右。

人工智能模型的訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求的攀升。截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近40億元,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了246PB。

下一步,國(guó)家數(shù)據(jù)局將通過(guò)體系化布局持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟(jì)、生物制造等重點(diǎn)領(lǐng)域數(shù)據(jù)高地,推動(dòng)全社會(huì)強(qiáng)化數(shù)據(jù)要素價(jià)值認(rèn)同,加快推進(jìn)數(shù)據(jù)要素價(jià)值共創(chuàng),培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場(chǎng)共識(shí)。

關(guān)鍵詞:

相關(guān)閱讀

主站蜘蛛池模板: 青青青亚洲精品国产| 一二三四视频免费视频| 永久免费无码网站在线观看| 少妇的丰满3中文字幕| 人妻中文字幕乱人伦在线| fc2ppv在线观看| 插鸡网站在线播放免费观看| 亚洲av无码一区二区三区不卡| 特级毛片s级全部免费| 国产无卡一级毛片aaa| 99视频精品全部在线播放| 日韩欧美一区二区三区久久| 免费夜色污私人影院在线观看| xxxxx做受大片视频| 夜夜揉揉日日人人青青| 久久精品国产精品亚洲| 男女污污在线观看| 国产日韩欧美综合一区| 8av国产精品爽爽ⅴa在线观看 | 一级做a爰片久久毛片人呢| 欧美日韩在大午夜爽爽影院| 国产三级自拍视频| 99久久精品免费观看国产| 日韩av激情在线观看| 伊人这里只有精品| 精字窝全球最大华人| 天天干在线观看| 久久久精品国产| 波多野结衣在线观看一区二区三区| 北岛玲在线精品视频| 国产香蕉免费精品视频| 天天干天天干天天| 一级做a爱片就在线看| 新木乃伊电影免费观看完整版| 亚洲最大成人网色| 羞羞视频在线观看入口| 国产精品一区二区三| 8x8x华人永久免费视频| 市来美保在线播放| 久久婷婷五月综合色精品| 第四色播日韩第一页|