一種適用于不同編程語言的高效代碼特征提取方法技術

技術編號：44055822 閱讀：8 留言：0更新日期：2025-01-17 15:58

本發明專利技術公開一種適用于不同編程語言的高效代碼特征提取方法，包括：從指定的項目路徑中加載不同編程語言配置文件，通過預定義的語言解析規則映射器解析語言配置文件，生成適用于不同編程語言的語言規則映射表；識別編程語言類型，按類型創建多任務隊列并分配任務線程；依據語言規則映射表，對源代碼預處理后進行分詞和標記，對分詞結果歸一化后生成歸一化后的源代碼文件；對歸一化后的源代碼文件按給定的窗口和步長大小進行代碼塊分割并生成哈希值作為特征值，獲得以哈希值序列為特征指紋的代碼文件；將以哈希值序列為特征指紋的代碼文件以及標記內容按標準化格式進行序列化存儲并輸出。本發明專利技術能夠提高代碼分析的效率和準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種適用于不同編程語言的高效代碼特征提取方法，屬于智能軟件分析與處理。

技術介紹

1、在現代軟件工程中，代碼特征提取在源代碼分析、相似性檢測、代碼克隆檢測等方面扮演著重要角色。隨著軟件規模和復雜性的不斷增加，以及編程語言種類的增加，代碼的特征提取方法面臨著諸多挑戰。

2、傳統的代碼特征提取方法通常依賴于代碼的詞法單元和語法結構。詞法單元的分析是是自然語言處理中常見的特征表示方法，也可以應用于代碼。在代碼中，詞法分析模型將代碼片段表示為其中出現的詞(例如標識符、關鍵字、運算符等)的集合，忽略它們的順序和語法結構。詞法單元分析方式的缺陷是無法捕捉代碼的語法和結構信息，不能有效處理代碼重排或者格式變化。基于語法結構的方法一般使用語法分析器將代碼轉換為抽象語法樹，然后提取抽象語法樹的結構和節點信息作為特征。它的缺陷是容易受限于特定編程語言的語法和結構，不同語言和代碼風格之間的差異性較大，語法樹的構建和分析復雜度較高。現有的許多方法在處理多種編程語言的源代碼時，新增每一種語言都要在軟件中增加開發相應語言的解析器，都需要新增更改源代碼，對新語言的可擴展性差，無法做到用通用的解析器+配置的方式進行無編碼方式的擴展，既費時又費力，且容易出現遺漏和錯誤。

3、此外，現有的代碼特征提取開源工具往往缺乏結構化設計，導致處理效率較低，無法滿足大規模代碼分析的需求。針對代碼規模較大的項目，傳統代碼特征提取方法往往缺乏結構化設計：采取串行遍歷每個項目文件進行預處理，或者加載全量項目代碼進行語法樹分析，這些方法處理效率較

技術實現思路

1、本專利技術的技術解決問題是：克服現有技術的不足，提供一種適用于不同編程語言的高效代碼特征提取方法，能夠為多語言項目提供高效的代碼特征提取解決方案，提高代碼分析的效率和準確性。

2、本專利技術的技術解決方案是：一種適用于不同編程語言的高效代碼特征提取方法，包括：

3、從指定的項目路徑中加載本項目所支持的不同編程語言配置文件，通過預定義的語言解析規則映射器解析對應的編程語言配置文件，生成適用于不同編程語言的語言規則映射表；

4、識別編程語言類型，按編程語言類型創建多任務隊列并分配任務線程，依據語言規則映射表，對源代碼預處理后，進行分詞和標記，對分詞結果歸一化后生成歸一化后的源代碼文件；

5、對歸一化后的源代碼文件按給定的窗口和步長大小進行代碼塊分割并生成哈希值作為特征值，獲得以哈希值序列為特征指紋的代碼文件；

6、將以哈希值序列為特征指紋的代碼文件及標記內容按標準化格式進行序列化存儲并輸出。

7、優選的，編程語言配置文件定義了該編程語言的語法規則和特征提取規則；當前配置文件主要分為兩種類型：

8、一種是關于編程語言語法的規則制定，詳細描述該語言的語法結構、關鍵字、操作符和其他語言特性；

9、另一種是關于該語言的特征提取規則，詳細描述如何識別和提取代碼中的關鍵特征。

10、優選的，識別編程語言類型時，通過識別源代碼文件后綴確定編程語言類型。

11、優選的，按編程語言類型創建多任務隊列并分配任務線程時，每種編程語言分配一個線程來處理對應語言的文件匹配任務。

12、優選的，對源代碼進行預處理的過程如下：

13、根據編程語言類型設置特定的標識符；

14、讀取語言規則映射表中的注釋規則、字面量規則、保留字列表，并根據相應規則對相關變量進行初始化；

15、讀取源代碼內容，將其轉換為字符串。

16、優選的，在分詞和標記過程中利用預處理生成的字符串，按字符遍歷預處理生成的字符串進行分詞和標記；

17、標記的內容為：分詞過程中，每個分詞處理前和處理后被處理內容所在行列位置和處理類型。

18、優選的，分詞的具體處理內容如下：

19、空白字符：忽略空白字符，但對行首的空白字符計算縮進數量；若使用空格或制表符則刪除空格或制表符，并計算和記錄空格或制表符的數量；將進行刪除處理前后的行號和列號作為標記；

20、縮進：根據縮進堆棧處理代碼塊的開始和結束位置，識別代碼塊結構；刪除縮進，同時將進行刪除前后的行號和列號作為標記；

21、注釋：通過匹配注釋起始和結束標志，根據語言規則映射表中的注釋規則識別并跳過單行和多行注釋；對于多行注釋，識別嵌套注釋的情況；刪除注釋，同時將進行刪除前后的行號和列號作為標記；

22、字面量：根據字面量規則識別并處理字面量，將字面量所在的行號和列號作為標記；

23、標識符和數字：通過正則表達式匹配標識符和數字，將標識符和數字所在的行號和列號作為標記；

24、符號：識別本專利技術會直接將單個符號作為標記，將單個符號所在的行號和列號直接作為標記。

25、優選的，對分詞結果歸一化具體為：

26、將分詞后的數字歸一化為同一數字類型值；

27、將分詞后的字符串歸一化為同一字符串類型值；

28、將分詞后的變量歸一化為同一變量類型值；

29、將分詞后的關鍵字不進行歸一化，保持原值；

30、將分詞后的標點歸一化為同一標識符類型值。

31、優選的，獲得以哈希值序列為特征指紋的代碼文件的方法具體為：

32、s3-1確定特征提取的窗口大小和步長；

33、s3-2按窗口分割出歸一化后的源代碼文件中的一個代碼塊；

34、s3-3生成該代碼塊的哈希值，作為該代碼塊的特征值并進行記錄；

35、s3-4將特征提取的窗口按步長進行移動，返回步驟s3-2繼續進行，遍歷完所有的代碼，得到以哈希值序列為特征指紋的代碼文件。

36、本專利技術與現有技術相比具有如下優點：

37、(1)本專利技術通過解析多種編程語言的源代碼，提取其特征指紋，從而實現對代碼的高效分析和處理；

38、(2)本專利技術將項目中不同語言的代碼文件集合劃分為若干組，為每種語言類型創建獨立線程，通過線程池統一調度管理的方法，大幅提高了本方法的處理能力和效率，減少了人工干預和潛在錯誤的發生；

39、(3)本專利技術通過將特征指紋數據進行序列化存儲，并統計源代碼文件的行數等附加信息，本專利技術為后續的分析和處理提供了詳實的數據支持；這一功能不僅便于數據的管理和使用，還能夠幫助開發人員和測試人員更好地理解和分析源代碼，提高軟件開發和測試的質量和效率。

本文檔來自技高網...

【技術保護點】

1.一種適用于不同編程語言的高效代碼特征提取方法，其特征在于包括：

2.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：編程語言配置文件定義了該編程語言的語法規則和特征提取規則；當前配置文件主要分為兩種類型：

3.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：識別編程語言類型時，通過識別源代碼文件后綴確定編程語言類型。

4.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：按編程語言類型創建多任務隊列并分配任務線程時，每種編程語言分配一個線程來處理對應語言的文件匹配任務。

5.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：對源代碼進行預處理的過程如下：

6.根據權利要求5所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：在分詞和標記過程中利用預處理生成的字符串，按字符遍歷預處理生成的字符串進行分詞和標記；

7.根據權利要求6所述的一種適用于不同編程語言的高效代碼特征提取方法，

8.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：對分詞結果歸一化具體為：

9.根據權利要求1所述的一種適用于不同編程語言的高效代碼特征提取方法，其特征在于：獲得以哈希值序列為特征指紋的代碼文件的方法具體為：

...

【技術特征摘要】

1.一種適用于不同編程語言的高效代碼特征提取方法，其特征在于包括：

5.根據權利要求1所述的一種適用...

【專利技術屬性】
技術研發人員：高棟棟，陳睿，江云松，王彥芳，吳濤，郭向英，吳瑾，于婷婷，賈春鵬，郝偉，
申請(專利權)人：北京軒宇信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術