System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及it,尤其涉及一種網絡訓練方法、網絡訓練裝置、電子設備、芯片及計算機可讀存儲介質。
技術介紹
1、對源碼相似性的判定在軟件同源、復制、代碼漏洞檢測等工作中有重要的應用,該研究問題隨著機器學習及深度學習技術的進步,再一次成為了相關研究的重點。而現有相關研究缺乏高質量的開源源碼數據支撐,數據量較小以及數據單一會影響相似檢測網絡的性能。
技術實現思路
1、本申請實施例提供了一種網絡訓練方法、網絡訓練裝置、電子設備、芯片及計算機可讀存儲介質。
2、本申請實施例的技術方案是這樣實現的:
3、第一方面,本申請實施例提供了一種網絡訓練方法,包括:
4、對多個源碼進行互補生成操作,得到所述多個源碼各自對應的目標語言代碼;
5、基于所述多個源碼、所述多個源碼各自對應的目標語言代碼、所述多個源碼的注釋以及所述多個源碼各自對應的目標語言代碼的注釋,生成多個代碼對數據;每個代碼對數據包括一個源碼、該源碼的注釋、該源碼對應的目標語言代碼、該源碼對應的目標語言代碼的注釋以及該代碼對的相似度標簽;所述多個代碼對數據組成源碼數據集;
6、通過所述源碼數據集訓練跨語言源碼相似性檢測網絡。
7、第二方面,本申請實施例提供了一種網絡訓練裝置,包括:
8、構建單元:用于對多個源碼進行互補生成操作,得到所述多個源碼各自對應的目標語言代碼;基于所述多個源碼、所述多個源碼各自對應的目標語言代碼、所述多個源碼的注釋以及所述多個源碼各自對
9、訓練單元:通過所述源碼數據集訓練跨語言源碼相似性檢測網絡。
10、第三方面,本申請提供一種電子設備,包括:處理器和存儲器,該存儲器用于存儲計算機程序,所述處理器用于調用并運行所述存儲器中存儲的計算機程序,執行本申請實施例所提供的任意一種網絡訓練方法。
11、第四方面,本申請提供一種芯片,包括:處理器,用于從存儲器中調用并運行計算機程序,使得安裝有所述芯片的設備執行本申請實施例所提供的任意一種網絡訓練方法。
12、第五方面,本申請提供一種計算機可讀存儲介質,用于存儲計算機程序,所述計算機程序使得計算機執行本申請實施例所提供的任意一種網絡訓練方法。
13、本申請實施例所提供的網絡訓練方法,通過互補生成技術構建大規模的同源碼的不同目標語言的相似性訓練源碼庫的方法,同時對代碼進一步生成相關的注釋信息,增強代碼相似性計算的能力,克服了跨語言源碼相似性分析時源碼數據缺乏及數據量小的問題,同時還能夠有效解決數據質量不一致的問題。
本文檔來自技高網...【技術保護點】
1.一種網絡訓練方法,其特征在于,包括:
2.根據權利要求1所述的網絡訓練方法,其特征在于,所述跨語言源碼相似性檢測網絡包括:嵌入層、特征提取層、自注意力層以及相似度判定層;其中,所述特征提取層為6層的BiGRU網絡,第一層為LSTM層;第二層為注意力層;第三層為Dropout層;第四層、第五層以及第六層為dense層。
3.根據權利要求2所述的網絡訓練方法,其特征在于,在通過所述源碼數據集訓練跨語言源碼相似性檢測網絡前,還包括:
4.根據權利要求3所述的網絡訓練方法,其特征在于,所述對所述源碼數據集中的各個代碼進行詞嵌入操作,得到各個代碼對應的嵌入向量,包括:
5.根據權利要求3所述的網絡訓練方法,其特征在于,所述對所述源碼數據集中的各個代碼進行詞嵌入操作,得到各個代碼對應的嵌入向量,包括:
6.根據權利要求4或5所述的網絡訓練方法,其特征在于,所述獲取所述代碼對應的數據流和函數調用關系,包括:
7.一種網絡訓練裝置,其特征在于,包括:
8.一種電子設備,其特征在于,包括:處理器和存儲器,該存儲
9.一種芯片,其特征在于,包括:處理器,用于從存儲器中調用并運行計算機程序,使得安裝有所述芯片的設備執行如權利要求1-6中任一項所述的網絡訓練方法。
10.一種計算機可讀存儲介質,其特征在于,用于存儲計算機程序,所述計算機程序使得計算機執行如權利要求1-6中任一項所述的網絡訓練方法。
...【技術特征摘要】
1.一種網絡訓練方法,其特征在于,包括:
2.根據權利要求1所述的網絡訓練方法,其特征在于,所述跨語言源碼相似性檢測網絡包括:嵌入層、特征提取層、自注意力層以及相似度判定層;其中,所述特征提取層為6層的bigru網絡,第一層為lstm層;第二層為注意力層;第三層為dropout層;第四層、第五層以及第六層為dense層。
3.根據權利要求2所述的網絡訓練方法,其特征在于,在通過所述源碼數據集訓練跨語言源碼相似性檢測網絡前,還包括:
4.根據權利要求3所述的網絡訓練方法,其特征在于,所述對所述源碼數據集中的各個代碼進行詞嵌入操作,得到各個代碼對應的嵌入向量,包括:
5.根據權利要求3所述的網絡訓練方法,其特征在于,所述對所述源碼數據集中的各個代碼進行詞嵌入操作...
【專利技術屬性】
技術研發人員:江為強,王光濤,
申請(專利權)人:中國移動通信集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。