System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于動物營養與飼料領域,具體地說是一種基于大語言模型的飼料原料營養價值數據合成方法。
技術介紹
1、糧食安全集中表現為飼料糧安全。當前飼料配方多元化大背景下,飼料原料種類多、營養價值變異大嚴重影響了其在配方中的精準使用,造成了較大的飼料資源浪費。因此,對于飼料原料有效養分變異規律的準確把握,是實現畜禽精準營養以及飼料資源高效利用的前提,對于從“節流”端解決飼料糧安全問題具有十分重要的意義。當前已公開的飼料原料有效養分數據庫普遍存在數據偏少的缺陷。受限于復雜的測定方法和有限的測定條件,基于靶動物試驗測定得到的飼料有效能和可利用氨基酸等有效養分數據更加稀缺,導致已報道的飼料原料有效養分預測模型均基于傳統線性回歸算法建立,模型預測精度差,且動態化程度不足。目前眾多機器學習算法被應用于各種復雜場景中以實現更精準的預測,但機器學習算法發揮良好效果的前提是有大量基礎數據的支撐,基礎數據難以獲得的現狀也限制了其在飼料原料營養價值預測中的應用。如果在現有數據庫的基礎上能夠通過數據合成的方法生成完整的營養價值數據,對于建模數據量的增加,機器學習算法的應用以及構建更準確的動物營養領域預測模型都將起到至關重要的作用。
2、飼料原料營養價值數據并不是孤立存在的,每條數據都與一系列的飼料原料基礎信息緊密相連,包括原料營養價值的濕化學測定方法與測定基礎(干物質基礎或飼喂基礎)、原料品種、產地、收獲季節、存儲工藝、加工工藝、抗營養因子含量、物理特性(千粒重、顏色)等。當飼料原料以飼料配方形式在動物上使用時,其又與配方及動物的信息聯系到了
技術實現思路
1、本專利技術提供一種基于大語言模型的飼料原料營養價值數據合成方法,用以解決飼料原料有效養分動態預測模型構建時所面臨的可用數據規模小、建模準確度受限的關鍵技術瓶頸。
2、本專利技術通過以下技術方案予以實現:
3、一種基于大語言模型的飼料原料營養價值數據合成方法,包括如下步驟:
4、步驟一:大語言模型微調數據收集,收集畜牧領域專業文獻資料(包括中英文教科書、中英文科研論文以及中英文學位論文),整理收集文獻資料,構建問答文本數據集、專業詞匯標注數據集以及指令微調數據集;
5、步驟二:使用問答文本數據集、專業詞匯標注數據集以及指令微調數據集選擇輕量化開源大語言模型進行微調,使用問答微調、專業詞匯標注以及指令微調三種大語言模型微調方法對大語言模型進行微調,生成能夠識別和理解動物營養與飼料領域專業術語的輕量化專用大語言模型;
6、步驟三:至少收集測定飼料營養價值的論文100篇,人工提取飼料原料營養價值數據以及相關聯的原料基礎信息、動物試驗信息和飼料配方信息,通過問答微調的方式,讓輕量化專用大語言模型掌握從文本資料中提取飼料原料營養價值數據以及相關聯的原料基礎信息、動物試驗信息和飼料配方信息的能力,使用交叉熵損失函數作為文本數據的損失函數,使用rmse損失函數作為數值型數據的損失函數進行模型訓練;使用bertscore方法以及人工評估的方法,判斷輕量化專用大語言模型提取數據的準確性;
7、步驟四:利用步驟三得到的輕量化專用大語言模型從更多公開資料中依次提取飼料原料營養價值數據以及相關聯的原料基礎信息、動物試驗信息和飼料配方信息,構造原料營養價值數據集,以用于飼料原料營養價值數據的合成;
8、步驟五:從原料基礎信息中隨機抽取數據作為真實原料組成數據,與動物試驗信息及配方信息一起輸入到步驟三得到的輕量化專用大語言模型,通過問答微調的方式,指示大語言模型生成對應的原料營養價值數據,并與真實值計算均方根誤差值,對模型進行反向傳播。
9、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟一中問答文本數據集通過從專業書籍、期刊文章、研究報告中提取問題和答案;邀請領域專家基于特定主題提出問題和提供答案進行構建。
10、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟一中將處理后的文本數據轉換為模型訓練所需的csv格式。
11、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟二中專業詞匯標注數據集的構建基于對重要術語、專業詞匯使用bio標注法進行標注,使開源大語言模型能夠識別和理解這些關鍵術語。
12、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟二中指令微調數據集的構建基于通過與領域專家共同構建數據集,確保指令對應的任務示例能夠真實反映實際應用場景。該數據集包括多種類型的指令,并確保難度多樣,涵蓋簡單到復雜的任務。
13、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟二中的飼料原料營養價值數據包括飼料原料的消化能、代謝能、凈能、氨基酸消化率、粗蛋白消化率、鈣消化率以及磷消化率,用以作為模型預測值。
14、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的動物試驗信息包括每個試驗的開展畜舍、試驗起止時間、試驗所使用的試驗動物信息以及試驗使用的原料的品種,產地,加工方式以及特殊成分。
15、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟三中的原料基礎信息包括飼料原料的干濕物質基礎,含水量,基礎養分。
16、如上所述的一種基于大語言模型的飼料原料營養價值數據合成方法,所述的步驟二、三、五中使用阿里開源的qwen2-72b作為基礎模型,將學習率設置為1e-5進行模型訓練。
17、本專利技術的優點是:本專利技術基于大語言模型技術,利用畜牧領域的專業文獻知識,讓模型掌握專家知識,然后利用各大高校以及科研單位的飼料研究文章以及專業人士從文章中提取的飼料營養價值信息進行微調,讓模型能夠基于少量提示信息和真實原料組成數據進行飼料營養價值數據合成,基于動物試驗信息、配方信息以及部分真實原料組成數據去進行飼料原料營養價值數據合成,克服了飼料原料營養價值數據合成時,難以利用自然語言信息和難以利用真實信息的缺點,提出了一種新的飼料原料營養價值數據合成方法,為飼料原料營養價值的預測提供了新數據和新思路,解決飼料行業缺乏信息合成方法的痛點。
本文檔來自技高網...【技術保護點】
1.一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:包括如下步驟:
2.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟一中問答文本數據集通過從專業書籍、期刊文章、研究報告中提取問題和答案;邀請領域專家基于特定主題提出問題和提供答案進行構建。
3.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟一中將處理后的文本數據轉換為模型訓練所需的CSV格式。
4.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟二中專業詞匯標注數據集的構建基于對重要術語、專業詞匯使用BIO標注法進行標注,使開源大語言模型能夠識別和理解這些關鍵術語。
5.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟二中指令微調數據集的構建基于通過與領域專家共同構建數據集,確保指令對應的任務示例能夠真實反映實際應用場景,該數據集包括多種類型的指令,并確保難度多樣,涵蓋簡單到復雜的任務。
...【技術特征摘要】
1.一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:包括如下步驟:
2.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟一中問答文本數據集通過從專業書籍、期刊文章、研究報告中提取問題和答案;邀請領域專家基于特定主題提出問題和提供答案進行構建。
3.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟一中將處理后的文本數據轉換為模型訓練所需的csv格式。
4.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟二中專業詞匯標注數據集的構建基于對重要術語、專業詞匯使用bio標注法進行標注,使開源大語言模型能夠識別和理解這些關鍵術語。
5.根據權利要求1所述的一種基于大語言模型的飼料原料營養價值數據合成方法,其特征在于:所述的步驟二中指令微調數據集的構建基于通過與領域專家共同構建數據集,確保指令對應的任務示例能夠真實反映實際應用場景...
【專利技術屬性】
技術研發人員:張帥,曾正程,曹紅蕊,李瀅瀅,羅翔詩,
申請(專利權)人:中國農業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。