4月22日,“2025天府融媒大講堂——主流媒體系統(tǒng)性變革之技術(shù)賦能”活動現(xiàn)場,格桑花藏地語料庫建設(shè)正式啟動。

記者從現(xiàn)場了解到,該語料庫由天府融媒(四川)科技有限公司、四川省全媒信息傳播研究院共同發(fā)起,尼瑪扎西院士工作站(電子科技大學(xué))、藏地陽光全媒體中心、甘孜州傳媒中心、四川日報全媒技術(shù)中心等多家機(jī)構(gòu)共同建設(shè)。
黨的二十大提出,要實施國家文化數(shù)字化戰(zhàn)略,增強(qiáng)中華文明傳播力影響力。今年,教育部、國家語委、中央網(wǎng)信辦聯(lián)合印發(fā)的《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語言文字信息化發(fā)展的意見》指出,“以加強(qiáng)數(shù)字中文建設(shè)為重點,以集成化、智能化、國際化為導(dǎo)向”,“促進(jìn)中文數(shù)據(jù)的規(guī)模生產(chǎn)、優(yōu)質(zhì)集成、融合創(chuàng)新、規(guī)范治理和復(fù)用增效”“加快推進(jìn)語言文字信息化發(fā)展”,明確要求推進(jìn)“古籍?dāng)?shù)字化整理關(guān)鍵技術(shù)研究”和“國家關(guān)鍵語料庫、高質(zhì)量民族語言文字語料庫”建設(shè)。
格桑花代表著幸福和吉祥,是藏族人民對美好生活的向往和期盼。以“格?;ā泵?,寓意語料庫將像格?;ㄒ粯觽鞒胁刈逦幕?,并為藏語在人工智能時代的應(yīng)用注入新的希望和活力。
目前,格?;ú氐卣Z料庫已初步搭建藏語語料訓(xùn)練系統(tǒng)。接下來,將對已整理的超200億字符的藏文資料、30000多小時的音視頻資料進(jìn)行訓(xùn)練,形成千萬條高質(zhì)量多模態(tài)藏語語料。同時,基于已有的翻譯詞庫構(gòu)建500萬級“藏漢英對照”平行語料庫。
記者了解到,今后語料庫還將通過數(shù)據(jù)清洗、知識提取等智能處理,形成藏語核心語料及細(xì)分領(lǐng)域知識庫,并借助格?;ú氐卣Z料庫建設(shè)藏語智能體綜合平臺,開發(fā)藏語知識問答、藏漢互譯等智能體,為藏語研究、內(nèi)容生產(chǎn)與傳播提供支撐。
編輯:馮方湲
責(zé)任編輯:金艷
編審:喻佳
0