System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于計算機軟件數據處理與文本挖掘,具體涉及一種科技項目文本的相似性檢測方法和系統。
技術介紹
1、在科技項目管理和學術研究中,文本相似性檢測是一項至關重要的任務。隨著科技事業的快速發展,科技項目申報和學術論文的數量急劇增加,但隨之而來的抄襲和重復申報問題也日益嚴重。為了保障科技項目的原創性和學術誠信,開發高效、準確的科技項目文本相似性檢測方法顯得尤為重要。
2、目前,與要求保護的科技項目文本相似性檢測方法最接近的現有技術主要基于以下幾種方法:tf-idf(詞頻-逆文檔頻率)方法、向量空間模型(vsm)、基于規則的文本比對方法、機器學習和深度學習方法等。這些方法存在以下問題和缺點:(1)語義理解不足:現有技術大多基于詞頻或簡單的文本匹配,忽略了詞語之間的語義關系和上下文信息,導致在處理含有多義詞或復雜語境的文本時效果不佳。(2)計算效率低:對于長文本或大規模文本數據集,現有技術的計算效率較低,難以滿足實時性要求。(3)誤判風險高:由于文本復雜性和現有技術的局限性,現有方法在檢測文本相似性時可能存在一定的誤判風險。此外,其還具有以下幾方面的技術難點:(1)數據獲取和處理:構建大規模、高質量的文本數據集是訓練機器學習模型和驗證算法效果的基礎,但這一過程通常耗時耗力。(2)算法優化:如何在保證計算效率的同時提高算法的準確性和魯棒性是一個巨大的挑戰。(3)語義建模:如何有效地對文本進行語義建模,以捕捉詞語之間的語義關系和上下文信息,是提升文本相似性檢測效果的關鍵。
3、綜上所述,現有技術在科技項目文本相似
技術實現思路
1、本專利技術的目的在于解決以下幾個問題:(1)現有技術在處理科技項目文本時,往往僅基于詞頻或簡單的文本匹配來判斷相似性,語義理解深度不足,忽略了詞語之間的深層語義關系和上下文信息。這導致在檢測具有復雜語義或專業術語的科技項目文本時,相似性評估的準確度不高。(2)現有技術中在處理大規模數據集時面臨計算效率低下的問題。同時,對于不斷增加的新文本數據,現有方法可能難以保證高效的擴展性和實時性。(3)由于文本內容的復雜性和多樣性,現有技術在檢測文本相似性時容易出現誤判(即將不相似的文本判斷為相似)或漏判(即將相似的文本忽略)的情況。這嚴重影響了檢測結果的準確性和可靠性。
2、為了解決上述技術問題,本專利技術采用的技術方案為:一種科技項目文本的相似性檢測方法,包括以下步驟:
3、步驟1:獲取文本,并對文本進行預處理;
4、步驟2:判斷文本的應用場景,根據應用場景選擇進行特征提取,然后將提取到的特征轉化為固定長度的字符串,最后通過哈希計算得到文本的指紋特征;
5、步驟3:創建索引實例,將數據添加到索引中,構建faiss向量檢索庫,然后通過aan算法進行相似性檢索,獲取文本的指紋特征與索引庫中文本的相似度;
6、步驟4:對檢索結果進行排序和過濾處理,同時根據設定閾值,判定是否存在文本重復并輸出。
7、所述步驟3中,在搜索過程中使用優先隊列來管理候選點,具體操作包括:構建優先隊列、插入隊列、刪除與更新隊列、維護隊列。
8、所述步驟3中,利用多核cpu或gpu發起多進程同步執行檢測算法,實現并行計算。
9、所述步驟3中,還包括調整ann算法的參數的步驟,所述參數包括數的數量,每個子空間的最大點數。
10、所述步驟2中,當應用場景為快速檢測時,采用tf-idf對文本進行特征提取,當應用場景為深度檢測時,通過word2vec算法對文本進行特征提取。
11、所述步驟2中,所述哈希計算采用sha-256算法,生成文本的指紋特征。
12、此外,本專利技術還提供了一種科技項目文本的相似性檢測系統,包括:
13、文本獲取模塊:用于獲取文本,并對文本進行預處理;
14、指紋特征生成模塊:用于判斷文本的應用場景,根據應用場景選擇進行特征提取,然后將提取到的特征轉化為固定長度的字符串,最后通過哈希計算得到文本的指紋特征;
15、相似度計算模塊:用于創建索引實例,將數據添加到索引中,構建faiss向量檢索庫,然后通過aan算法進行相似性檢索,獲取文本的指紋特征與索引庫中文本的相似度;
16、輸出模塊:對檢索結果進行排序和過濾處理,同時根據設定閾值,判定是否存在文本重復并輸出。
17、所述的一種科技項目文本的相似性檢測系統,采用主從服務器架構實現,主服務器負責處理外部請求和調度任務,從服務器負責數據入庫、索引構建和比對計算。
18、所述的一種科技項目文本的相似性檢測系統,還包括:
19、數據備份模塊:用于定期將關系數據庫中的數據備份至可靠的存儲介質,確保數據不丟失;同時,對redis內存數據庫中的緩存數據也進行定期快照和aof日志記錄;
20、數據同步模塊:實現關系數據庫與redis內存數據庫之間的實時或準實時數據同步,確保緩存數據的一致性和最新性:
21、數據加密模塊:用于對敏感數據進行加密存儲和傳輸;
22、資源監控與動態調整模塊:用于監控系統資源使用情況,并根據資源使用情況動態調整系統配置。
23、所述指紋特征生成模塊和相似度計算模塊采用異步處理機制。
24、本專利技術與現有技術相比具有以下有益效果:
25、(1)提高檢測精度和效率:
26、專業分詞引擎:采用針對科技項目的專業分詞引擎,確保分詞過程的專業性、準確性和高效性,從而提高了文本指紋特征的生成質量。
27、多算法結合:結合先進的哈希算法(如sha-256)與自然語言處理(nlp)技術(如tf-idf、word2vec),綜合多種方法的優勢,使得生成的文本指紋特征更具代表性和魯棒性。
28、多語言支持:通過多語言預訓練語言模型,實現了對中、英、中英混合文本的有效處理,擴大了系統的適用范圍。
29、(2)優化相似度計算:
30、余弦相似度與閾值設定:通過計算文本指紋特征的余弦相似度,并設定合理的閾值,實現了對文本相似度的精確判斷。
31、近似最近鄰搜索算法(ann)優化:利用faiss等算法進行相似度計算的優化,通過多樹策略、優先隊列、并行計算和參數調優等手段,顯著提高了在大規模數據集下的計算速度和精度。
32、(3)系統架構的靈活性和可擴展性:
33、主從服務器架構:采用elasticsearch集群的主從節點策略,確保了系統的高可用性和負載均衡,提高了系統的穩定性和可靠性。
34、分布式與集群部署:支持多種操作系統和docker容器化技術,便于快速部署和遷移,同時支持水平擴展,通過增加從服務器和數據庫實例來提升系統處理能力,滿足不斷增長的業務需求。
本文檔來自技高網...
【技術保護點】
1.一種科技項目文本的相似性檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,在搜索過程中使用優先隊列來管理候選點,具體操作包括:構建優先隊列、插入隊列、刪除與更新隊列、維護隊列。
3.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,利用多核CPU或GPU發起多進程同步執行檢測算法,實現并行計算。
4.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,還包括調整ANN算法的參數的步驟,所述參數包括數的數量,每個子空間的最大點數。
5.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟2中,當應用場景為快速檢測時,采用TF-IDF對文本進行特征提取,當應用場景為深度檢測時,通過Word2Vec算法對文本進行特征提取。
6.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟2中,所述哈希計算采用SHA-256算法,生成文本的指紋特征。
8.根據權利要求7所述的一種科技項目文本的相似性檢測系統,其特征在于,采用主從服務器架構實現,主服務器負責處理外部請求和調度任務,從服務器負責數據入庫、索引構建和比對計算。
9.根據權利要求7所述的一種科技項目文本的相似性檢測系統,其特征在于,還包括:
10.根據權利要求7所述的一種科技項目文本的相似性檢測系統,其特征在于,所述指紋特征生成模塊和相似度計算模塊采用異步處理機制。
...【技術特征摘要】
1.一種科技項目文本的相似性檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,在搜索過程中使用優先隊列來管理候選點,具體操作包括:構建優先隊列、插入隊列、刪除與更新隊列、維護隊列。
3.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,利用多核cpu或gpu發起多進程同步執行檢測算法,實現并行計算。
4.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟3中,還包括調整ann算法的參數的步驟,所述參數包括數的數量,每個子空間的最大點數。
5.根據權利要求1所述的一種科技項目文本的相似性檢測方法,其特征在于,所述步驟2中,當應用場景為快速檢測時,采用tf-i...
【專利技術屬性】
技術研發人員:葛川,楊露豪,郝璽龍,楊志鵬,王旭,
申請(專利權)人:山西省科技情報與戰略研究中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。