System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及自然語言處理及文本處理,具體涉及基于合成位置編碼的長文本生成對齊方法及系統。
技術介紹
1、本部分的陳述僅僅是提供了與本公開相關的
技術介紹
信息,不必然構成在先技術。
2、隨著人工智能技術的快速發展,大語言模型(llm)在處理和理解長文本方面的能力變得越來越重要。這些模型在多種復雜實際應用中發揮作用,例如從多個文檔中回答問題或進行摘要、理解以及處理代碼庫等。為了滿足這些應用需求,大語音模型的上下文窗口不斷擴展,例如通過持續預訓練可以實現128k個詞元(token)的上下文窗口。
3、盡管在擴展上下文窗口方面取得了進展,但如何使llms利用其長文本能力來解釋長而復雜的指令仍然是一個未充分探索的領域。一個主要障礙是缺乏高質量、開源的長指令數據集,以及與標注此類數據相關的挑戰。一個有前景的方法是將常見的短指令合成為長指令樣本。
4、然而,現有的方法主要關注于簡單地延長指定樣本的長度,忽略了更關鍵的方面——有效地構建長距離依賴關系。longchat和longllama等方法通過連接較短的樣本來創建較長的樣本,這些策略構建的長距離依賴關系來源于不相關的樣本,可能無法有效模擬長文本任務所需的長距離依賴。
技術實現思路
1、本公開為了解決上述問題,提出了基于合成位置編碼的長文本生成對齊方法及系統,利用短指令的位置索引創建長距離依賴關系的樣本,在指令-響應對的位置索引中插入跳過步驟,從而在不生成大量數據或修改架構的情況下,增強模型處理長文本的能力。
>2、根據一些實施例,本公開采用如下技術方案:
3、基于合成位置編碼的長文本生成對齊方法,包括:
4、獲取對話式文檔數據,將取對話式文檔數據拆分為連續的指令-響應對序列;
5、通過位置索引對指令-響應對序列中詞元的位置信息進行編碼;
6、對指令-響應對序列的語義依賴的相對距離進行擴展,重新分配位置索引將原始位置進行擴展,通過使用一個指示函數確定是否符合添加跳過步驟的條件,并確定何時設置引入跳過的步驟;
7、引入跳過步驟,有選擇地將跳過距離應用于位置索引中的特定結構,對指令-響應對序列的上下文語義依賴關系進行擴展;
8、將擴展之后的位置索引輸入至基于llama-2的對齊模型中,實現長文本的對齊合成。
9、根據一些實施例,本公開采用如下技術方案:
10、基于合成位置編碼的長文本生成對齊系統,包括:
11、數據獲取模塊,用于獲取對話式文檔數據,將取對話式文檔數據拆分為連續的指令-響應對序列;
12、位置編碼模塊,用于通過位置索引對指令-響應對序列中詞元的位置信息進行編碼;
13、擴展跳過模塊,用于對指令-響應對序列的語義依賴的相對距離進行擴展,重新分配位置索引將原始位置進行擴展,通過使用一個指示函數確定是否符合添加跳過步驟的條件,并確定何時設置引入跳過的步驟;引入跳過步驟,有選擇地將跳過距離應用于位置索引中的特定結構,對指令-響應對序列的上下文語義依賴關系進行擴展;
14、對齊模塊,用于將擴展之后的位置索引輸入至基于llama-2的對齊模型中,實現長文本的對齊合成。
15、根據一些實施例,本公開采用如下技術方案:
16、一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現所述的基于合成位置編碼的長文本生成對齊方法。
17、根據一些實施例,本公開采用如下技術方案:
18、一種非暫態計算機可讀存儲介質,所述非暫態計算機可讀存儲介質用于存儲計算機指令,所述計算機指令被處理器執行時,實現所述的基于合成位置編碼的長文本生成對齊方法。
19、根據一些實施例,本公開采用如下技術方案:
20、一種電子設備,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當電子設備運行時,所述處理器執行所述存儲器存儲的計算機程序,以使電子設備執行實現所述的基于合成位置編碼的長文本生成對齊方法。
21、與現有技術相比,本公開的有益效果為:
22、本公開的基于合成位置編碼的長文本生成對齊方法,提出skipalign(步進跳過對齊)方法,采用skipalign的提出基于一個核心假設,即擴展這種語義結構的相對距離以包含更長的尺度對于解鎖語言模型的長文本能力至關重要。skipalign通過策略性地修改位置索引來實現這一點。通過在指令遵循樣本中有選擇地跳過某些位置索引,本公開能夠擴展語義依賴的相對距離,創建長距離依賴關系。
23、本公開的基于合成位置編碼的長文本生成對齊方法,skipalign通過模擬長距離依賴關系,提高了模型的長文本能力;skipalign避免了訓練或修改大語言模型架構所需的額外長數據,使其成為一個計算效率高的解決方案;skipalign還有助于大語言模型處理超出其原始上下文窗口的輸入。
本文檔來自技高網...【技術保護點】
1.基于合成位置編碼的長文本生成對齊方法,其特征在于,包括:
2.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,將取對話式文檔數據拆分為連續的指令-響應對序列,包括:
3.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,基于Transformer的語言模型利用位置信息來補充輸入詞元,通過位置索引進行編碼,依賴位置索引表示詞元的位置信息,位置索引按順序分配為(0,1,...,|m|-1),其中|m|表示輸入序列的長度。
4.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,對指令-響應對序列的語義依賴的相對距離進行擴展,重新分配位置索引將原始位置進行擴展,將指令或響應視為一個基本單元,同時移動它們所有的位置索引。
5.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,給定一個i輪樣本m讓P(m)=(c1,c2,...,c2i-1,c2i)代表它的原始位置索引,索引是由指令-響應對中每個塊的位置索引連接而成的,在P(m)中,奇數和偶數下標分別對應指令和響應,通
6.如權利要求5所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,有效位置索引的基本要求是遞增性,這要求最小的移位偏差被設置為前面詞元的累積移位偏差引入跳過步驟,表示為si,使得si為零意味著ci和它的前一個ci-1之間沒有跳過發生,si為正則在這兩個位置之間引入si位置索引的跳過,為移動后在[0,L]內實現相對距離的均勻分布,從均勻分布中采樣si:
7.基于合成位置編碼的長文本生成對齊系統,其特征在于,包括:
8.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-6任一項所述的基于合成位置編碼的長文本生成對齊方法。
9.一種非暫態計算機可讀存儲介質,其特征在于,所述非暫態計算機可讀存儲介質用于存儲計算機指令,所述計算機指令被處理器執行時,實現如權利要求1-6任一項所述的基于合成位置編碼的長文本生成對齊方法。
10.一種電子設備,其特征在于,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當電子設備運行時,所述處理器執行所述存儲器存儲的計算機程序,以使電子設備執行實現如權利要求1-6任一項所述的基于合成位置編碼的長文本生成對齊方法。
...【技術特征摘要】
1.基于合成位置編碼的長文本生成對齊方法,其特征在于,包括:
2.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,將取對話式文檔數據拆分為連續的指令-響應對序列,包括:
3.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,基于transformer的語言模型利用位置信息來補充輸入詞元,通過位置索引進行編碼,依賴位置索引表示詞元的位置信息,位置索引按順序分配為(0,1,...,|m|-1),其中|m|表示輸入序列的長度。
4.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,對指令-響應對序列的語義依賴的相對距離進行擴展,重新分配位置索引將原始位置進行擴展,將指令或響應視為一個基本單元,同時移動它們所有的位置索引。
5.如權利要求1所述的基于合成位置編碼的長文本生成對齊方法,其特征在于,給定一個i輪樣本m讓p(m)=(c1,c2,...,c2i-1,c2i)代表它的原始位置索引,索引是由指令-響應對中每個塊的位置索引連接而成的,在p(m)中,奇數和偶數下標分別對應指令和響應,通過向右移動每個位置塊的偏差向量u=(u1,u2,...u2i)來創建更大的相對位置,其中每個常數u∈u是移動的恒定偏差,通過以不...
【專利技術屬性】
技術研發人員:湯琳琳,馬超,劉函,曲延盛,徐彬泰,劉蔭,朱韶松,范少華,王有昕,孟令震,趙偉廷,徐浩,姜悅悅,孫文昌,
申請(專利權)人:國網山東省電力公司信息通信公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。