System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及基于特定計算模型的計算機系統,具體涉及一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法。
技術介紹
1、最近,通過在大規模語料庫上訓練transformer模型(常包含數百或數千億的參數),使得其在解決各種自然語言處理任務方面顯示出強大的能力。然而,數百或數千億的參數大幅增加了模型的計算復雜度,對模型所部署的硬件配置提出了更加嚴苛的要求,使得其很難應用于真實場景中。
2、因此,在保證模型性能的前提下,為有效降低模型的計算復雜度,解決不同場景下的各種自然語言處理問題,自然語言處理方法
迫切需要一種基于知識蒸餾的呼吸暫停知識問答模型。
技術實現思路
1、本專利技術是為了解決模型計算復雜度的問題,提供一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,教師模型通過重建損失監督學生模型的特征學習,使其擁有教師模型的特征表達能力;學生模型結合分類損失,提高學生模型在下游任務中的泛化能力。相較以往的語言模型訓練方法,本專利技術實現了在保持高準確率的同時,提高了問答系統的響應速度,這對于普及呼吸暫停相關知識、輔助快速診斷、提供個性化治療建議等方面具有顯著的有益效果,進而促進了醫療資源的合理分配和醫療服務質量的提升。
2、本專利技術提供一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,包括以下步驟:
3、s1、建立基于ai語言大模型問答結果的呼吸暫停知識數據集并劃分為訓練集、驗證集和測試集;
4、s2、建立基于知識蒸餾的掩碼語言模塊和基于
5、基于自監督掩碼的語言訓練模塊為非對稱的編碼器-解碼器網絡結構,編碼器為學生模型的編碼器vit-t,解碼器為多層感知機,通過結合基于知識蒸餾的掩碼語言模塊和分類損失提高編碼器vit-t的隱性呼吸暫停知識表達能力和對下游任務的泛化能力;
6、s3、建立重建損失、分類損失和總損失;
7、s4、利用訓練集、驗證集和測試集分別訓練、驗證、測試學生模型,達到模型收斂閾值后得到基于知識蒸餾的呼吸暫停知識問答模型,一種基于知識蒸餾的呼吸暫停知識問答模型的訓練方法完成。
8、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s1包括:
9、s11、從醫學文獻、專業數據庫和在線健康論壇中提取呼吸暫停知識相關文本數據;
10、s12、基于呼吸暫停知識相關文本數據制作模板并使用ai語言大模型進行患者和智能助手間的問答,記錄ai語言大模型的問答結果并劃分為訓練集、驗證集和測試集。
11、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s2中,編碼器vit-h為預訓練的編碼器,編碼器vit-h的訓練語料庫大于學生模型編碼器的訓練語料庫。
12、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,編碼器vit-h和編碼器vit-t的的基礎模塊均包括依次連接的第一層標準化模塊、多頭注意力模塊、第二層標準化模塊和多層感知機,基礎模塊的輸入端口同時輸入至第一層標準化模塊和第二層標準化模塊,多頭注意力模塊的輸出與多層感知機的輸出同時對外輸出。
13、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,編碼器vit-h的基礎模塊數量為32個,編碼器vit-t的基礎模塊數量為6個。
14、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s2中,基于知識蒸餾的掩碼語言模塊的處理方法為:
15、將輸入的呼吸暫停知識句子進行分詞處理得到文本token序列并輸出至教師模型,教師模型基于詞嵌入模塊進行token序列向量化、輸出并提取教師模型目標特征,教師模型為凍結狀態;
16、;
17、將文本token序列進行隨機掩碼后輸出至學生模型,學生模型基于詞嵌入模塊進行token序列向量化、輸出并提取學生模型重建特征;
18、;
19、根據教師模型目標特征和學生模型重建特征得到重建損失,將學生模型重建特征輸出至解碼器。
20、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s2中,基于自監督掩碼語言訓練模塊包括:將呼吸暫停知識句子經分詞處理為文本token序列,基于詞嵌入模塊和隨機掩碼生成掩碼區域標簽信息,其中為掩碼token的索引,為詞嵌入的長度。
21、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s3中,重建損失為:
22、;
23、其中,n為向量維度,為norm。
24、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型,作為優選方式,步驟s3中,分類損失為:
25、;
26、其中,?為對第個掩碼token的第個類別位置的預測,為掩碼token的個數。
27、本專利技術所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,作為優選方式,步驟s3中,總損失為:
28、。
29、本專利技術具有以下優點:
30、(1)基于在大規模語料庫上預訓練vision?transformer?-huge(vit-h)優異的特征提取能力,結合重構損失,利用知識蒸餾結構在特征層面指導vision?transformer?-tiny(vit-t)等參數量較少模型在下游任務中的特征重建,探索學生模型對教師模型的知識遷移能力;除此之外,學生模型結合掩碼語言模型和分類損失,進一步提高編碼器的隱性知識表達能力和解碼器對下游任務的泛化能力;
31、(2)自監督掩碼語言訓練模塊使得學生模型能夠在下游任務提供的語料信息下,并基于其提供的上下文信息,實現文本句子的補全和修正;
32、(3)學生模型簡單的網絡結構,使得其計算復雜度明顯降低,減低了模型的部署成本,使得其有機會應用于真實場景中,具有一定的實際使用價值;
33、(4)本專利技術基于知識蒸餾的掩碼語言訓練模塊和自監督的掩碼語言訓練模塊,并結合重構損失和分類損失,不僅使得學生模型擁有教師模型豐富的知識,且提升學生模型對于下游任務的泛化能力;除此之外,學生模型簡單的網絡結構,使得其計算復雜度明顯降低,減低了模型的部署成本,使得其有機會應用于真實場景中。
本文檔來自技高網...【技術保護點】
1.一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟S1包括:
3.根據權利要求1所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟S2中,所述編碼器ViT-H為預訓練的編碼器,所述編碼器ViT-H的訓練語料庫大于學生模型編碼器的訓練語料庫。
4.根據權利要求3所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:所述編碼器ViT-H和所述編碼器ViT-T的基礎模塊均包括依次連接的第一層標準化模塊、多頭注意力模塊、第二層標準化模塊和多層感知機,所述基礎模塊的輸入端口同時輸入至所述第一層標準化模塊和所述第二層標準化模塊,所述多頭注意力模塊的輸出與所述多層感知機的輸出同時對外輸出。
5.根據權利要求4所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:所述編碼器ViT-H的基礎模塊數量為32個,所述編碼器ViT-T的基礎模塊數量為6個。
6.根據權利要求1所述的一種
7.根據權利要求6所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟S2中,所述基于自監督的掩碼語言訓練模塊將所述呼吸暫停知識句子經分詞處理為文本token序列,基于所述詞嵌入模塊和隨機掩碼生成掩碼區域標簽信息,其中為掩碼token的索引,為詞嵌入的長度。
8.根據權利要求6所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟S3中,所述重建損失為:
9.根據權利要求6所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟S3中,所述分類損失為:
10.根據權利要求1所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:
...【技術特征摘要】
1.一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟s1包括:
3.根據權利要求1所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:步驟s2中,所述編碼器vit-h為預訓練的編碼器,所述編碼器vit-h的訓練語料庫大于學生模型編碼器的訓練語料庫。
4.根據權利要求3所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:所述編碼器vit-h和所述編碼器vit-t的基礎模塊均包括依次連接的第一層標準化模塊、多頭注意力模塊、第二層標準化模塊和多層感知機,所述基礎模塊的輸入端口同時輸入至所述第一層標準化模塊和所述第二層標準化模塊,所述多頭注意力模塊的輸出與所述多層感知機的輸出同時對外輸出。
5.根據權利要求4所述的一種基于知識蒸餾的呼吸暫停知識問答模型訓練方法,其特征在于:所述編碼...
【專利技術屬性】
技術研發人員:李柏蕤,連荷清,武靜威,
申請(專利權)人:北京小蠅科技有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。