System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)屬于特征提取,涉及一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)、提取方法及應(yīng)用。
技術(shù)介紹
1、隨著openai的chatgpt的橫空出世,基于transformer結(jié)構(gòu)的大語(yǔ)言模型在nlp領(lǐng)域被廣泛得到應(yīng)用。隨著將業(yè)界將transformer結(jié)構(gòu)應(yīng)用到機(jī)器視覺(jué)(cv)領(lǐng)域,更是將之前不同領(lǐng)域模型統(tǒng)一到了transformer架構(gòu)。
2、transformer是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,由vaswani等人在2017年提出[1]。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)不同,transformer模型完全依賴(lài)于自注意力機(jī)制(self-attention?mechanism)來(lái)捕捉輸入數(shù)據(jù)中的長(zhǎng)距離依賴(lài)關(guān)系。它的核心組件包括編碼器(encoder)和解碼器(decoder)兩個(gè)部分,每個(gè)部分都由多個(gè)相同的層堆疊而成。這種架構(gòu)的設(shè)計(jì)使得transformer在并行處理和長(zhǎng)距離依賴(lài)關(guān)系建模方面具有顯著優(yōu)勢(shì)。
3、在transformer模型中,編碼器(encoder)和解碼器(decoder)是兩個(gè)主要組件,它們各自具有獨(dú)特的結(jié)構(gòu)和功能:
4、編碼器(encoder):編碼器的主要任務(wù)是接收輸入序列,并將其轉(zhuǎn)換為一組連續(xù)表示(continuous?representation)。每個(gè)編碼器層包含兩個(gè)主要子層:多頭自注意力機(jī)制(multi-head?self-attention?mechanism)和前饋神經(jīng)網(wǎng)絡(luò)(feed-forward?neura
5、解碼器(decoder):解碼器的任務(wù)是生成輸出序列。每個(gè)解碼器層也包含兩個(gè)主要子層:多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),此外還包括一個(gè)額外的多頭注意力子層,用于接收編碼器的輸出表示。解碼器利用自回歸機(jī)制(auto-regressive?mechanism)逐步生成輸出,并通過(guò)掩碼機(jī)制(masking)確保每個(gè)位置只能訪問(wèn)到當(dāng)前時(shí)刻之前的輸出。
6、由于transformer模型不使用循環(huán)結(jié)構(gòu),無(wú)法隱式地捕捉序列的位置信息,因此需要顯式地加入位置嵌入(position?embedding)以表示輸入數(shù)據(jù)中元素的位置。位置嵌入通過(guò)向輸入序列中的每個(gè)元素添加位置信息,使得模型能夠利用位置信息進(jìn)行更有效的序列建模。常見(jiàn)的實(shí)現(xiàn)方法包括正弦和余弦函數(shù)以及可學(xué)習(xí)的位置嵌入?yún)?shù)。
7、除了位置編碼,掩碼(mask)在transformer模型中起到了重要的作用,主要用于以下兩個(gè)方面:
8、1、自注意力掩碼:在訓(xùn)練過(guò)程中,為了避免模型在生成某個(gè)位置的輸出時(shí)訪問(wèn)到未來(lái)時(shí)刻的信息,使用自注意力掩碼(self-attention?mask)屏蔽掉未來(lái)時(shí)刻的輸入。這種掩碼通常稱(chēng)為“未來(lái)掩碼”(future?mask),確保模型只能訪問(wèn)當(dāng)前時(shí)刻及之前的位置信息。
9、2、填充掩碼:為了處理不同長(zhǎng)度的輸入序列,在進(jìn)行批處理時(shí)需要對(duì)較短的序列進(jìn)行填充(padding)。填充掩碼(padding?mask)用于屏蔽填充部分的數(shù)據(jù),使得這些部分不會(huì)對(duì)模型的訓(xùn)練和預(yù)測(cè)產(chǎn)生影響。
10、綜上所述,transformer模型通過(guò)其獨(dú)特的架構(gòu)設(shè)計(jì)、位置嵌入以及掩碼機(jī)制,有效地解決了序列數(shù)據(jù)處理中的長(zhǎng)距離依賴(lài)和并行計(jì)算問(wèn)題,成為一種強(qiáng)大的特征提取器。
11、這些技術(shù)特點(diǎn)為各種自然語(yǔ)言處理(nlp)任務(wù)的應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。但是由于transformer設(shè)計(jì)之初就是為了滿(mǎn)足自然語(yǔ)言處理領(lǐng)域的處理,所以在模型結(jié)構(gòu)中有很多結(jié)構(gòu)是與自然語(yǔ)言特點(diǎn)緊密相關(guān),這些結(jié)構(gòu)導(dǎo)致transformer限制了在其他領(lǐng)域的應(yīng)用。
12、目前的特征提取器在應(yīng)對(duì)通用任務(wù)時(shí)存在的問(wèn)題包括如下:
13、一、transformers更加關(guān)注鄰近位置的特征的,而通用特征提取中往往特征相互關(guān)系并不是與相互位置強(qiáng)關(guān)聯(lián)的;
14、二、傳統(tǒng)機(jī)器學(xué)習(xí)的方法往往由于參數(shù)量限制,往往造成過(guò)擬合的現(xiàn)象以及泛化能力不強(qiáng)的問(wèn)題;
15、三、卷積神經(jīng)網(wǎng)絡(luò)(cnn)模型由于卷積由于滑動(dòng)窗(sliding?windows)機(jī)制的影響會(huì)天然適合類(lèi)似圖像這一類(lèi)特征在2d層面上有較強(qiáng)關(guān)聯(lián)的問(wèn)題,但是對(duì)于很多其他應(yīng)用領(lǐng)域來(lái)講,這種關(guān)聯(lián)并不存在。
16、因此,在解決通用特征提取的相關(guān)問(wèn)題時(shí),現(xiàn)有的特征提取器效果相對(duì)較差。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的不足,本專(zhuān)利技術(shù)的目的是提供一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)、提取方法及應(yīng)用,使得改進(jìn)后的transformer模型能夠適用于更多的非自然語(yǔ)言領(lǐng)域的特征提取工作。
2、本專(zhuān)利技術(shù)提供了一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng),所述通用特征提取系統(tǒng)包括:輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊;
3、所述輸入及預(yù)處理模塊接收輸入的原始特征數(shù)據(jù),并對(duì)原始特征數(shù)據(jù)進(jìn)行預(yù)處理;所述預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)填充、數(shù)據(jù)轉(zhuǎn)換等處理方式,使得獲得的數(shù)據(jù)能夠更好地適應(yīng)后續(xù)模型的訓(xùn)練和使用;
4、所述特征歸一化模塊將預(yù)處理后的特征數(shù)據(jù)進(jìn)行歸一化處理,獲得特征浮點(diǎn)數(shù);
5、所述特征編碼模塊將歸一化后的特征浮點(diǎn)數(shù)與預(yù)構(gòu)建詞表進(jìn)行量化,并編碼為唯一的token?id;
6、所述改進(jìn)的transformer模塊對(duì)編碼后的數(shù)據(jù)進(jìn)行特征提取;
7、所述改進(jìn)的transformer模塊包括去除位置嵌入和自注意力掩碼的注意力模塊,用于對(duì)編碼后的數(shù)據(jù)進(jìn)行特征提取;
8、所述任務(wù)適配模塊根據(jù)任務(wù)需求調(diào)整改進(jìn)的transformer模塊中線性層的結(jié)構(gòu);
9、所述結(jié)果輸出模塊輸出最終的特征提取結(jié)果。
10、所述通用特征提取系統(tǒng)中包含預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的詞表,對(duì)transformer中的原詞表進(jìn)行替換;和/或,
11、預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的所述詞表存儲(chǔ)了詞表浮點(diǎn)數(shù)到token?id的映射,將特征數(shù)據(jù)對(duì)應(yīng)的特征浮點(diǎn)數(shù)量化為詞表浮點(diǎn)數(shù)后,使特征浮點(diǎn)數(shù)與所述token?id一一對(duì)應(yīng);和/或,
12、所述詞表浮點(diǎn)數(shù)均勻和/或按照正態(tài)分布和/或動(dòng)態(tài)樹(shù)進(jìn)行劃分。
13、所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼;
14、所述改進(jìn)的transformer模塊直接使用輸入的不添加任何位置信息的特征向量,后續(xù)處理的特征向量不包含任何位置編碼;和/或,
15、所述改進(jìn)的transformer模塊在多頭自注意力機(jī)制中不使用任何形式的掩碼,允許每個(gè)位置的特征向量與其他所有位置的特征向量自由交互,充分利用輸入特征之間的全本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng),其特征在于,所述通用特征提取系統(tǒng)包括:輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊;
2.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述通用特征提取系統(tǒng)中包含預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的詞表,對(duì)transformer中的原詞表進(jìn)行替換;和/或,
3.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼;和/或,
4.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述改進(jìn)的transformer模塊中的線性層為任務(wù)適配層,通過(guò)改變所述線性層的維度,適配不同的回歸或分類(lèi)任務(wù);和/或,
5.一種通用特征提取方法,其特征在于,所述特征提取方法包括:
6.如權(quán)利要求5所述的特征提取方法,其特征在于,步驟一中,將特征數(shù)據(jù)歸一化為[0,1]的特征浮點(diǎn)數(shù);所述歸一化公式如下式所示:
7.如權(quán)利要求5所述的特征提取方法,其特征在于,步驟
8.一種實(shí)現(xiàn)如權(quán)利要求5-7之任一項(xiàng)所述方法的硬件系統(tǒng),其特征在于,所述硬件系統(tǒng)包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的方法。
10.如權(quán)利要求1-4之任一項(xiàng)所述的特征提取系統(tǒng),如權(quán)利要求5-7之任一項(xiàng)所述的特征提取方法,如權(quán)利要求8所述的硬件系統(tǒng)或如權(quán)利要求9所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在非自然語(yǔ)言處理領(lǐng)域的特征提取中的應(yīng)用。
...【技術(shù)特征摘要】
1.一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng),其特征在于,所述通用特征提取系統(tǒng)包括:輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊;
2.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述通用特征提取系統(tǒng)中包含預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的詞表,對(duì)transformer中的原詞表進(jìn)行替換;和/或,
3.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼;和/或,
4.如權(quán)利要求1所述的通用特征提取系統(tǒng),其特征在于,所述改進(jìn)的transformer模塊中的線性層為任務(wù)適配層,通過(guò)改變所述線性層的維度,適配不同的回歸或分類(lèi)任務(wù);和/或,
5.一種通用特征提取方法,其特征在于,所述特征提取方法包括:
6.如權(quán)利要求5所述的特征提...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:劉劍,
申請(qǐng)(專(zhuān)利權(quán))人:上海曲速超為技術(shù)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。