當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>上海曲速超為技術(shù)有限公司專(zhuān)利>正文

一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)、提取方法及應(yīng)用技術(shù)方案

技術(shù)編號(hào)：43396787 閱讀：13 留言：0更新日期：2024-11-19 18:13

本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)，所述通用特征提取系統(tǒng)包括：輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊；所述輸入及預(yù)處理模塊接收輸入的原始特征數(shù)據(jù)，并對(duì)原始特征數(shù)據(jù)進(jìn)行預(yù)處理；所述特征歸一化模塊將預(yù)處理后的特征數(shù)據(jù)進(jìn)行歸一化處理；所述特征編碼模塊將歸一化后的特征值編碼為唯一的token?id；所述改進(jìn)的transformer模塊包括去除位置嵌入和自注意力掩碼的注意力模塊，用于對(duì)編碼后的數(shù)據(jù)進(jìn)行特征提取；所述任務(wù)適配模塊根據(jù)任務(wù)需求調(diào)整改進(jìn)的transformer模塊中的結(jié)構(gòu)；所述結(jié)果輸出模塊輸出最終的特征提取結(jié)果。本發(fā)明專(zhuān)利技術(shù)還公開(kāi)了一種通用特征提取方法，以及應(yīng)用，具有廣泛應(yīng)用場(chǎng)景。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)屬于特征提取，涉及一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)、提取方法及應(yīng)用。

技術(shù)介紹

1、隨著openai的chatgpt的橫空出世，基于transformer結(jié)構(gòu)的大語(yǔ)言模型在nlp領(lǐng)域被廣泛得到應(yīng)用。隨著將業(yè)界將transformer結(jié)構(gòu)應(yīng)用到機(jī)器視覺(jué)(cv)領(lǐng)域，更是將之前不同領(lǐng)域模型統(tǒng)一到了transformer架構(gòu)。

2、transformer是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型，由vaswani等人在2017年提出[1]。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)不同，transformer模型完全依賴(lài)于自注意力機(jī)制(self-attention?mechanism)來(lái)捕捉輸入數(shù)據(jù)中的長(zhǎng)距離依賴(lài)關(guān)系。它的核心組件包括編碼器(encoder)和解碼器(decoder)兩個(gè)部分，每個(gè)部分都由多個(gè)相同的層堆疊而成。這種架構(gòu)的設(shè)計(jì)使得transformer在并行處理和長(zhǎng)距離依賴(lài)關(guān)系建模方面具有顯著優(yōu)勢(shì)。

3、在transformer模型中，編碼器(encoder)和解碼器(decoder)是兩個(gè)主要組件，它們各自具有獨(dú)特的結(jié)構(gòu)和功能：

4、編碼器(encoder)：編碼器的主要任務(wù)是接收輸入序列，并將其轉(zhuǎn)換為一組連續(xù)表示(continuous?representation)。每個(gè)編碼器層包含兩個(gè)主要子層：多頭自注意力機(jī)制(multi-head?self-attention?mechanism)和前饋神經(jīng)網(wǎng)絡(luò)(feed-forward?neura

5、解碼器(decoder)：解碼器的任務(wù)是生成輸出序列。每個(gè)解碼器層也包含兩個(gè)主要子層：多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)，此外還包括一個(gè)額外的多頭注意力子層，用于接收編碼器的輸出表示。解碼器利用自回歸機(jī)制(auto-regressive?mechanism)逐步生成輸出，并通過(guò)掩碼機(jī)制(masking)確保每個(gè)位置只能訪問(wèn)到當(dāng)前時(shí)刻之前的輸出。

6、由于transformer模型不使用循環(huán)結(jié)構(gòu)，無(wú)法隱式地捕捉序列的位置信息，因此需要顯式地加入位置嵌入(position?embedding)以表示輸入數(shù)據(jù)中元素的位置。位置嵌入通過(guò)向輸入序列中的每個(gè)元素添加位置信息，使得模型能夠利用位置信息進(jìn)行更有效的序列建模。常見(jiàn)的實(shí)現(xiàn)方法包括正弦和余弦函數(shù)以及可學(xué)習(xí)的位置嵌入?yún)?shù)。

7、除了位置編碼，掩碼(mask)在transformer模型中起到了重要的作用，主要用于以下兩個(gè)方面：

8、1、自注意力掩碼：在訓(xùn)練過(guò)程中，為了避免模型在生成某個(gè)位置的輸出時(shí)訪問(wèn)到未來(lái)時(shí)刻的信息，使用自注意力掩碼(self-attention?mask)屏蔽掉未來(lái)時(shí)刻的輸入。這種掩碼通常稱(chēng)為“未來(lái)掩碼”(future?mask)，確保模型只能訪問(wèn)當(dāng)前時(shí)刻及之前的位置信息。

9、2、填充掩碼：為了處理不同長(zhǎng)度的輸入序列，在進(jìn)行批處理時(shí)需要對(duì)較短的序列進(jìn)行填充(padding)。填充掩碼(padding?mask)用于屏蔽填充部分的數(shù)據(jù)，使得這些部分不會(huì)對(duì)模型的訓(xùn)練和預(yù)測(cè)產(chǎn)生影響。

10、綜上所述，transformer模型通過(guò)其獨(dú)特的架構(gòu)設(shè)計(jì)、位置嵌入以及掩碼機(jī)制，有效地解決了序列數(shù)據(jù)處理中的長(zhǎng)距離依賴(lài)和并行計(jì)算問(wèn)題，成為一種強(qiáng)大的特征提取器。

11、這些技術(shù)特點(diǎn)為各種自然語(yǔ)言處理(nlp)任務(wù)的應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。但是由于transformer設(shè)計(jì)之初就是為了滿(mǎn)足自然語(yǔ)言處理領(lǐng)域的處理，所以在模型結(jié)構(gòu)中有很多結(jié)構(gòu)是與自然語(yǔ)言特點(diǎn)緊密相關(guān)，這些結(jié)構(gòu)導(dǎo)致transformer限制了在其他領(lǐng)域的應(yīng)用。

12、目前的特征提取器在應(yīng)對(duì)通用任務(wù)時(shí)存在的問(wèn)題包括如下：

13、一、transformers更加關(guān)注鄰近位置的特征的，而通用特征提取中往往特征相互關(guān)系并不是與相互位置強(qiáng)關(guān)聯(lián)的；

14、二、傳統(tǒng)機(jī)器學(xué)習(xí)的方法往往由于參數(shù)量限制，往往造成過(guò)擬合的現(xiàn)象以及泛化能力不強(qiáng)的問(wèn)題；

15、三、卷積神經(jīng)網(wǎng)絡(luò)(cnn)模型由于卷積由于滑動(dòng)窗(sliding?windows)機(jī)制的影響會(huì)天然適合類(lèi)似圖像這一類(lèi)特征在2d層面上有較強(qiáng)關(guān)聯(lián)的問(wèn)題，但是對(duì)于很多其他應(yīng)用領(lǐng)域來(lái)講，這種關(guān)聯(lián)并不存在。

16、因此，在解決通用特征提取的相關(guān)問(wèn)題時(shí)，現(xiàn)有的特征提取器效果相對(duì)較差。

技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)存在的不足，本專(zhuān)利技術(shù)的目的是提供一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)、提取方法及應(yīng)用，使得改進(jìn)后的transformer模型能夠適用于更多的非自然語(yǔ)言領(lǐng)域的特征提取工作。

2、本專(zhuān)利技術(shù)提供了一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)，所述通用特征提取系統(tǒng)包括：輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊；

3、所述輸入及預(yù)處理模塊接收輸入的原始特征數(shù)據(jù)，并對(duì)原始特征數(shù)據(jù)進(jìn)行預(yù)處理；所述預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)填充、數(shù)據(jù)轉(zhuǎn)換等處理方式，使得獲得的數(shù)據(jù)能夠更好地適應(yīng)后續(xù)模型的訓(xùn)練和使用；

4、所述特征歸一化模塊將預(yù)處理后的特征數(shù)據(jù)進(jìn)行歸一化處理，獲得特征浮點(diǎn)數(shù)；

5、所述特征編碼模塊將歸一化后的特征浮點(diǎn)數(shù)與預(yù)構(gòu)建詞表進(jìn)行量化，并編碼為唯一的token?id；

6、所述改進(jìn)的transformer模塊對(duì)編碼后的數(shù)據(jù)進(jìn)行特征提取；

7、所述改進(jìn)的transformer模塊包括去除位置嵌入和自注意力掩碼的注意力模塊，用于對(duì)編碼后的數(shù)據(jù)進(jìn)行特征提取；

8、所述任務(wù)適配模塊根據(jù)任務(wù)需求調(diào)整改進(jìn)的transformer模塊中線性層的結(jié)構(gòu)；

9、所述結(jié)果輸出模塊輸出最終的特征提取結(jié)果。

10、所述通用特征提取系統(tǒng)中包含預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的詞表，對(duì)transformer中的原詞表進(jìn)行替換；和/或，

11、預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的所述詞表存儲(chǔ)了詞表浮點(diǎn)數(shù)到token?id的映射，將特征數(shù)據(jù)對(duì)應(yīng)的特征浮點(diǎn)數(shù)量化為詞表浮點(diǎn)數(shù)后，使特征浮點(diǎn)數(shù)與所述token?id一一對(duì)應(yīng)；和/或，

12、所述詞表浮點(diǎn)數(shù)均勻和/或按照正態(tài)分布和/或動(dòng)態(tài)樹(shù)進(jìn)行劃分。

13、所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼；

14、所述改進(jìn)的transformer模塊直接使用輸入的不添加任何位置信息的特征向量，后續(xù)處理的特征向量不包含任何位置編碼；和/或，

15、所述改進(jìn)的transformer模塊在多頭自注意力機(jī)制中不使用任何形式的掩碼，允許每個(gè)位置的特征向量與其他所有位置的特征向量自由交互，充分利用輸入特征之間的全本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于改進(jìn)的transformer結(jié)構(gòu)的通用特征提取系統(tǒng)，其特征在于，所述通用特征提取系統(tǒng)包括：輸入及預(yù)處理模塊、特征歸一化模塊、特征編碼模塊、改進(jìn)的transformer模塊、任務(wù)適配模塊、結(jié)果輸出模塊；

2.如權(quán)利要求1所述的通用特征提取系統(tǒng)，其特征在于，所述通用特征提取系統(tǒng)中包含預(yù)先構(gòu)建的符合預(yù)定場(chǎng)景的詞表，對(duì)transformer中的原詞表進(jìn)行替換；和/或，

3.如權(quán)利要求1所述的通用特征提取系統(tǒng)，其特征在于，所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼；和/或，

4.如權(quán)利要求1所述的通用特征提取系統(tǒng)，其特征在于，所述改進(jìn)的transformer模塊中的線性層為任務(wù)適配層，通過(guò)改變所述線性層的維度，適配不同的回歸或分類(lèi)任務(wù)；和/或，

5.一種通用特征提取方法，其特征在于，所述特征提取方法包括：

6.如權(quán)利要求5所述的特征提取方法，其特征在于，步驟一中，將特征數(shù)據(jù)歸一化為[0，1]的特征浮點(diǎn)數(shù)；所述歸一化公式如下式所示：

7.如權(quán)利要求5所述的特征提取方法，其特征在于，步驟

8.一種實(shí)現(xiàn)如權(quán)利要求5-7之任一項(xiàng)所述方法的硬件系統(tǒng)，其特征在于，所述硬件系統(tǒng)包括：存儲(chǔ)器和處理器；所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的方法。

10.如權(quán)利要求1-4之任一項(xiàng)所述的特征提取系統(tǒng)，如權(quán)利要求5-7之任一項(xiàng)所述的特征提取方法，如權(quán)利要求8所述的硬件系統(tǒng)或如權(quán)利要求9所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在非自然語(yǔ)言處理領(lǐng)域的特征提取中的應(yīng)用。

...

【技術(shù)特征摘要】

3.如權(quán)利要求1所述的通用特征提取系統(tǒng)，其特征在于，所述改進(jìn)的transformer模塊中不包含位置嵌入和自注意力掩碼；和/或，

5.一種通用特征提取方法，其特征在于，所述特征提取方法包括：

6.如權(quán)利要求5所述的特征提...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：劉劍，
申請(qǐng)(專(zhuān)利權(quán))人：上海曲速超為技術(shù)有限公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)