阿里巴巴(中國)有限公司申請公布。
觀點網(wǎng)訊:2月13日,阿里巴巴(中國)有限公司申請公布"一種基于思維鏈訓(xùn)練大型語言模型的方法、裝置和設(shè)備"專利。專利摘要顯示,該方法通過獲取多個初始采樣數(shù)據(jù)生成思維鏈數(shù)據(jù)集合,對基礎(chǔ)大型語言模型進(jìn)行全量微調(diào),迭代生成中間思維鏈數(shù)據(jù),并采用組相對策略優(yōu)化算法GRPO對中間大型語言模型進(jìn)行強(qiáng)化學(xué)習(xí),最終確定目標(biāo)大型語言模型。該技術(shù)方案可提高大型語言模型的可解釋性和審核精度。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)由觀點根據(jù)公開信息整理,不構(gòu)成投資建議,使用前請核實。
審校:武瑾瑩
