System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能領域,尤其涉及一種特征標簽篩選方法、裝置、系統、電子設備、介質及產品。
技術介紹
1、隨著金融產品、金融業務的不斷迭代和推陳出新,標簽的數量和種類日益增多,標簽數量的上升雖然有效擴充了用戶畫像特征和整體標簽庫,但是其中的冗余標簽不僅增加了數據中的噪音,使得從中提取有價值的信息變得更加困難,還可能會導致數據混淆,影響分析結果的準確性和可靠性。
2、因此,如何有效篩選真正有利用價值的標簽亟需解決。
技術實現思路
1、本申請實施例提供一種特征標簽篩選方法、裝置、系統、電子設備、介質及產品,用以提升特征標簽篩選的準確率。
2、第一方面,本申請實施例提供一種特征標簽篩選方法,包括:
3、獲取多個原始訓練樣本,每一原始訓練樣本包括多個原始特征標簽以及各原始特征標簽對應的特征值;
4、針對每一原始訓練樣本,在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,所述注意力模型包括編碼器和解碼器,所述鍵矩陣和值矩陣是所述編碼器傳遞給所述解碼器的;
5、根據各原始訓練樣本分別對應的注意力損失,確定第一總注意力損失;
6、基于多個目標訓練樣本和注意力模型,確定第二總注意力損失;所述目標訓練樣本包括至少一個第一特征標簽及各第一特征標簽對應的特征值;所述第一特征標簽是從所述原始訓練樣本包括的多個原始特征標簽中篩選出的;
7、根據所述第一總注
8、在一種可能的實施方式中,所述注意力損失包括第一注意力損失;根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
9、獲取所述原始訓練樣本對應的真實鍵矩陣和真實值矩陣;
10、根據所述鍵矩陣、真實鍵矩陣,確定第一鍵相關損失,并根據所述值矩陣、真實值矩陣,確定第一值相關損失;
11、根據所述第一鍵相關損失和所述第一值相關損失,確定所述原始訓練樣本對應的第一注意力損失。
12、在一種可能的實施方式中,根據所述鍵矩陣、真實鍵矩陣,確定第一鍵相關損失,并根據所述值矩陣、真實值矩陣,確定第一值相關損失,包括:
13、計算所述鍵矩陣和所述真實鍵矩陣的第一互信息,并根據所述第一互信息,確定第一鍵相關損失;
14、計算所述值矩陣和所述真實值矩陣的第二互信息,并根據所述第二互信息,確定第一值相關損失。
15、在一種可能的實施方式中,根據所述第一互信息,確定第一鍵相關損失,包括:
16、計算所述鍵矩陣和所述真實鍵矩陣的第一皮爾遜相關系數;
17、將所述第一互信息和所述第一皮爾遜相關系數相加,得到第一總和;
18、確定所述第一總和的一半為所述第一鍵相關損失;
19、相應的,根據所述第二互信息,確定第一值相關損失,包括:
20、計算所述值矩陣和所述真實值矩陣的第二皮爾遜相關系數;
21、將所述第二互信息和所述第二皮爾遜相關系數相加,得到第二總和;
22、確定所述第二總和的一半為所述第一值相關損失。
23、在一種可能的實施方式中,所述注意力損失包括第二注意力損失;在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
24、在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣、值矩陣和查詢矩陣;
25、根據所述鍵矩陣、值矩陣和查詢矩陣,確定所述原始訓練樣本對應的第二注意力損失。
26、在一種可能的實施方式中,根據所述鍵矩陣、值矩陣和查詢矩陣,確定所述原始訓練樣本對應的第二注意力損失,包括:
27、獲取所述原始訓練樣本對應真實鍵矩陣、真實值矩陣和真實查詢矩陣;
28、根據所述鍵矩陣、真實鍵矩陣,確定第二鍵相關損失;
29、根據所述值矩陣、真實值矩陣,確定第二值相關損失;
30、根據所述查詢矩陣、真實查詢矩陣,確定查詢相關損失;
31、根據所述第二鍵相關損失、第二值相關損失和查詢相關損失,確定所述原始訓練樣本對應的第二注意力損失。
32、在一種可能的實施方式中,所述真實鍵矩陣、真實值矩陣和真實查詢矩陣均包括多個元素,針對每一元素,若所述元素對應的元素值為第一預設值,則說明所述元素所在的位置應被注意,若所述元素對應的元素值為第二預設值,則說明所述元素所在的位置不應被注意。
33、在一種可能的實施方式中,根據所述鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
34、將所述鍵矩陣中各元素對應的元素值進行尺度縮放,縮放至第一預設值與第二預設值之間,得到縮放后的鍵矩陣;
35、根據縮放后的鍵矩陣、真實鍵矩陣,確定第二鍵相關損失。
36、在一種可能的實施方式中,根據縮放后的鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
37、針對縮放后的鍵矩陣中的每一元素,計算所述元素對應的元素值與目標元素對應的元素值的差值;其中,所述目標元素在所述真實鍵矩陣中的相對位置與所述元素在所述鍵矩陣中的相對位置相同;
38、計算縮放后的鍵矩陣中的各元素分別對應的差值之和,得到第三總和;
39、根據所述第三總和,確定第二鍵相關損失。
40、在一種可能的實施方式中,根據所述第三總和,確定第二鍵相關損失,包括:
41、計算所述鍵矩陣和所述真實鍵矩陣的交并比,
42、確定所述交并比與所述第三總和的乘積為第二鍵相關損失。
43、在一種可能的實施方式中,在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
44、在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣、值矩陣和查詢矩陣;
45、基于所述鍵矩陣和值矩陣,確定第一注意力損失;
46、基于所述鍵矩陣、值矩陣和查詢矩陣,確定第二注意力損失;
47、基于所述第一注意力損失和所述第二注意力損失,確定所述原始訓練樣本對應的注意力損失。
48、在一種可能的實施方式中,所述方法還包括:
49、獲取各原始訓練樣本對應的樣本標簽;
50、針對每一原始訓練樣本,確定所述原始訓練樣本對應的輸出,并根據所述原始訓練樣本對應的樣本標簽和輸出,確定所述原始訓練樣本對應的輸出損失;
51、根據各原始訓練樣本分別對應的輸出損失,確定第一總輸出損失;
52、針對每一目標訓練樣本,確定所述目標訓練樣本對應的輸出,并根據所述目標訓練樣本對應的樣本標簽和輸出,確定本文檔來自技高網...
【技術保護點】
1.一種特征標簽篩選方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述注意力損失包括第一注意力損失;根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
3.根據權利要求2所述的方法,其特征在于,根據所述鍵矩陣、真實鍵矩陣,確定第一鍵相關損失,并根據所述值矩陣、真實值矩陣,確定第一值相關損失,包括:
4.根據權利要求3所述的方法,其特征在于,根據所述第一互信息,確定第一鍵相關損失,包括:
5.根據權利要求1所述的方法,其特征在于,所述注意力損失包括第二注意力損失;在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
6.根據權利要求5所述的方法,其特征在于,根據所述鍵矩陣、值矩陣和查詢矩陣,確定所述原始訓練樣本對應的第二注意力損失,包括:
7.根據權利要求6所述的方法,其特征在于,所述真實鍵矩陣、真實值矩陣和真實查詢矩陣均包括多個元素,針對每一元素,若所述元素對應的元素值為第一預設值,則說明所述元
8.根據權利要求7所述的方法,其特征在于,根據所述鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
9.根據權利要求8所述的方法,其特征在于,根據縮放后的鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
10.根據權利要求9所述的方法,其特征在于,根據所述第三總和,確定第二鍵相關損失,包括:
11.根據權利要求1所述的方法,其特征在于,在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
12.根據權利要求1-11任一項所述的方法,其特征在于,所述方法還包括:
13.根據權利要求12所述的方法,其特征在于,根據所述第一總注意力損失、第二總注意力損失、第一總輸出損失、第二總輸出損失,確定是否刪除第二特征標簽,包括:
14.根據權利要求13所述的方法,其特征在于,根據所述第一總注意力損失和第一總輸出損失,確定第一總損失,包括:
15.根據權利要求12所述的方法,其特征在于,各原始訓練樣本對應的輸出為分類概率值,所述分類概率值用于指示所述原始訓練樣本被劃分為預設的多個類別中各類別的概率,根據所述原始訓練樣本對應的樣本標簽和輸出,確定所述原始訓練樣本對應的輸出損失,包括:
16.根據權利要求12所述的方法,其特征在于,各原始訓練樣本對應的輸出為分類概率值,所述分類概率值用于指示所述原始訓練樣本被劃分為預設的多個類別中各類別的概率,根據所述原始訓練樣本對應的樣本標簽和輸出,確定所述原始訓練樣本對應的輸出損失,包括:
17.一種特征標簽篩選方法,其特征在于,應用于客戶端,包括:
18.根據權利要求17所述的方法,其特征在于,所述方法還包括:
19.一種特征標簽篩選系統,其特征在于,包括:
20.一種特征標簽篩選裝置,其特征在于,包括:
21.一種特征標簽篩選裝置,其特征在于,應用于客戶端,包括:
22.一種電子設備,其特征在于,包括:存儲器,處理器;
23.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機執行指令,所述計算機執行指令被處理器執行時用于實現如權利要求1-18任一項所述的方法。
24.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1-18任一項所述的方法。
...【技術特征摘要】
1.一種特征標簽篩選方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述注意力損失包括第一注意力損失;根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
3.根據權利要求2所述的方法,其特征在于,根據所述鍵矩陣、真實鍵矩陣,確定第一鍵相關損失,并根據所述值矩陣、真實值矩陣,確定第一值相關損失,包括:
4.根據權利要求3所述的方法,其特征在于,根據所述第一互信息,確定第一鍵相關損失,包括:
5.根據權利要求1所述的方法,其特征在于,所述注意力損失包括第二注意力損失;在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
6.根據權利要求5所述的方法,其特征在于,根據所述鍵矩陣、值矩陣和查詢矩陣,確定所述原始訓練樣本對應的第二注意力損失,包括:
7.根據權利要求6所述的方法,其特征在于,所述真實鍵矩陣、真實值矩陣和真實查詢矩陣均包括多個元素,針對每一元素,若所述元素對應的元素值為第一預設值,則說明所述元素所在的位置應被注意,若所述元素對應的元素值為第二預設值,則說明所述元素所在的位置不應被注意。
8.根據權利要求7所述的方法,其特征在于,根據所述鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
9.根據權利要求8所述的方法,其特征在于,根據縮放后的鍵矩陣、真實鍵矩陣,確定第二鍵相關損失,包括:
10.根據權利要求9所述的方法,其特征在于,根據所述第三總和,確定第二鍵相關損失,包括:
11.根據權利要求1所述的方法,其特征在于,在所述原始訓練樣本被輸入注意力模型后,得到鍵矩陣和值矩陣,并根據所述鍵矩陣和值矩陣,確定所述原始訓練樣本對應的注意力損失,包括:
<...【專利技術屬性】
技術研發人員:胡君一,周雍愷,高鵬飛,
申請(專利權)人:中國銀聯股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。