隨著DeepSeek,、ChatGPT,、Sora等人工智能大語(yǔ)言模型技術(shù)的迅速發(fā)展,學(xué)校緊跟新時(shí)代技術(shù)變革的趨勢(shì),,積極部署數(shù)字化賦能教育強(qiáng)國(guó)建設(shè),,深入推進(jìn)中華民族共同體學(xué)交叉學(xué)科建設(shè),,推動(dòng)知識(shí)大模型工作不斷取得進(jìn)展。
近日,,學(xué)?!懊褡逦幕悄苡?jì)算與安全治理”科研團(tuán)隊(duì)創(chuàng)新性地將人工智能技術(shù)與民族事務(wù)治理深度融合,成功上線“鑄牢中華民族共同體意識(shí)知識(shí)大模型”,,探索出一條服務(wù)國(guó)家戰(zhàn)略需求,、有效鑄牢中華民族共同體意識(shí)的新路徑。
該科研團(tuán)隊(duì)由計(jì)算機(jī)科學(xué)學(xué)院張瀟副教授負(fù)責(zé),,團(tuán)隊(duì)構(gòu)建了民族工作領(lǐng)域首個(gè)大模型訓(xùn)練自有語(yǔ)料庫(kù),。該語(yǔ)料庫(kù)以黨的民族理論政策、《中華民族共同體概論》教材、三交史等為養(yǎng)料(1324.4萬(wàn)字),,輔以涉民族領(lǐng)域法規(guī)數(shù)據(jù)庫(kù),、相關(guān)學(xué)術(shù)論文(4411.1萬(wàn)字)。此外,,從各級(jí)網(wǎng)站獲取約4000萬(wàn)字語(yǔ)料以及1萬(wàn)道問(wèn)答對(duì),。形成了民族工作領(lǐng)域大模型建設(shè)的正能量?jī)?nèi)容供給,從底層邏輯上有效解決了大模型價(jià)值觀引導(dǎo)等問(wèn)題,。依托該自有語(yǔ)料庫(kù),,通過(guò)對(duì)基于Transformer架構(gòu)的千億級(jí)別基礎(chǔ)模型Qwen2—7B—base進(jìn)行增量預(yù)訓(xùn)練、指令微調(diào)和檢索增強(qiáng)生成,,打造面向中華民族共同體意識(shí)理解與價(jià)值觀對(duì)齊的大語(yǔ)言知識(shí)模型,,并基于強(qiáng)大的自然語(yǔ)言生成能力,實(shí)現(xiàn)對(duì)中華民族共同體學(xué)領(lǐng)域知識(shí)體系的精準(zhǔn)理解,。

“鑄牢中華民族共同體意識(shí)知識(shí)大模型”登錄界面
目前,,該模型已具備以下功能:一是支持互動(dòng)式問(wèn)答,可幫助用戶(hù)深入了解中華民族多元一體的歷史事件,、文化習(xí)俗,、傳統(tǒng)藝術(shù)等知識(shí);二是快速定位中華民族共同體學(xué)領(lǐng)域的研究成果,,支持知識(shí)圖譜構(gòu)建,;三是為《中華民族共同體概論》等相關(guān)課程提供教學(xué)資源動(dòng)態(tài)更新,,以及民族學(xué)文獻(xiàn),、口述史、非遺影像等資源的智能化采集與增量式擴(kuò)充等多項(xiàng)支持,;四是幫助用戶(hù)解析國(guó)家民族政策,,分析全國(guó)民族團(tuán)結(jié)進(jìn)步典型案例,提煉可推廣的經(jīng)驗(yàn)?zāi)J健?/p>
該模型上線后,,張瀟副教授團(tuán)隊(duì)將繼續(xù)整合相關(guān)領(lǐng)域研究?jī)?yōu)勢(shì)資源,,分階段推進(jìn)“鑄牢”大模型系統(tǒng)完善。