System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及技術機會識別領域,特別涉及一種基于論文和專利的雙層gtm地圖的技術機會識別方法。
技術介紹
1、目前,技術機會識別的方法主要包括形態分析、基于科學與技術的差距分析、異常檢測、鏈接預測和專利地圖。形態分析法是一種典型的定性技術預測分析方法,以參數分解和問題構造為基礎,是一種引導構造性專利技術的非定量建模方法。但形態分析法需要相關領域專家的參與建立形態矩陣和建模的建議等。基于科學和技術的差距方法通過分析和比較科學論文和專利,以確定差距并確定技術機會。研究人員結合專家意見和文本挖掘,從主題角度對論文和專利進行對比,預測短期內技術的未來發展方向。由于主題是粗粒度的,因此大多數文獻都側重于預測技術趨勢,而不是為技術機會識別提供具體信息。異常檢測旨在識別與總體存在顯著差異的個體,也稱為異常點。在技術機會識別中,常見的無監督異常檢測方法包括基于距離的k-means、基于聚類的dbscan和基于密度的局部離群因子(lof)。異常專利的定性評估通常依賴于專家判斷。鏈接預測通過根據已知的網絡結構和其他相關節點信息,預測兩個潛在關聯節點之間是否存在鏈接。鏈接預測的優勢在于其能夠揭示網絡中尚不存在的鏈接,從而促進對技術動態變化的跟蹤和新知識的結合。然而,鏈接預測只能預測現有節點之間的潛在鏈接,無法預測新節點的出現或新舊節點之間的鏈接。專利地圖通常被定義為一種可視化專利關系的形式,例如圖表、表格或圖形。通過構建專利圖來識別空白技術的主要方法包括主成分分析(pca)、自組織映射(som)和生成拓撲映射(gtm)。基于pca和som的專利地圖需
2、現有的基于gtm的研究大多結合了語義關系或聚類方法用于技術機會識別(toi)。yoon和magee在technologicalforecasting?and?social?change?132:105–17中提出通過gtm可視化專利信息,并比較了支持向量機(svm)和基于距離的方法的預測性能。技術機會識別應考慮全新的
,但利用單一網絡中現有節點的鏈接預測工具并不合適。liu等人在technologicalforecasting?and?social?change?192:122565中提出了一條通過跨領域專利分析和鏈接預測獲取技術機會的明確路徑。然而,由于這兩項技術屬于不同領域,技術轉移過程中可能會出現技術不匹配或專利侵權的問題。最近,研究人員嘗試結合主題模型和gtm,通過使用同一
的專利和論文數據來識別技術機會。例如,feng等人在plos?one?18(10):e0293309中使用潛在狄利克雷分配(lda)分析專利和論文的主題趨勢,并將其映射到單一的gtm圖上,然后將被專利或論文包圍的真空點視為技術機會。然而,識別的結果在很大程度上依賴于領域專家的意見。此外,lda模型需要輔助指標來確定主題的數量。
技術實現思路
1、本專利技術的目的在于克服現有技術中所存在的難以準確預測技術趨和需要專家干預的不足,提供一種基于論文和專利的雙層gtm地圖的技術機會識別方法。
2、在第一方面,本專利技術提供一種結合bertopic主題模型、雙層生成式拓撲映射地圖和鏈接預測的技術識別方法,通過結合鏈接預測和余弦相似度來構建了一個更合適的相似度指標,相較于現有識別方法,該方法實現了去除領域專家的干預且可以對專利真空點信息做出更加合理和客觀的解釋,同時還可以獲得更加全面的結果,所述識別方法具體包括以下步驟:
3、s1、收集并預處理數據;
4、s2、基于bertopic神經網絡主題模型來提取論文和專利中的主題并分析主題趨勢;
5、s3、通過gtm生成的專利地圖和論文地圖來識別技術真空點以及技術機會;
6、s4、基于s3生成的所述專利地圖和所述論文地圖構建語義鏈接關系和引用鏈接關系對技術機會進行選擇和解讀。
7、優選地,步驟s1具體包括如下步驟:
8、s11、通過lens數據庫對論文和專利數據進行檢索;
9、s12:將標題、摘要、出版日期和期刊來源等作為特定的搜索策略來收集重要的結構化數據,并通過分割、分詞、詞形還原和去除停用詞從論文和專利摘要中提取關鍵詞。
10、優選地,所述步驟s2是基于bertopic神經網絡主題模型生成文檔嵌入表示,減少嵌入的維度,對嵌入進行聚類,然后構建主題表征。
11、進一步優選的,所述步驟s2具體包括以下步驟:
12、s21、使用all-minilm-l6-v2句子變換器模型進行文檔嵌入;
13、s22、使用統一流形近似和投影來降低所述文檔嵌入的維度,并得到集群降維文檔嵌入;
14、s23、將含噪聲的基于密度的分層空間聚類應用于所述集群降維文檔嵌入以捕獲不同密度下的結構;
15、s24、利用所述bertopic模型生成的文獻主題文檔來確定每篇論文和專利的主題,并按照一年為單位對論文和專利主題進行對比分析,以觀察和分析特定領域主題的演變趨勢。
16、優選地,所述步驟s3是通過gtm可視化發現技術真空,并獲得目標技術機會。
17、進一步優選地,所述步驟s3具體包括以下步驟:
18、s31、使用詞頻逆文檔頻率分別從論文和專利中提取關鍵詞并得到兩組關鍵字,通過分析論文和專利的摘要數據得到所述兩組關鍵字的交集元素,利用所述交集元素分別構建論文文檔關鍵詞矩陣d1和專利文檔關鍵詞矩陣d2,通過gtm將所述論文文檔關鍵詞矩陣d1和所述專利文檔關鍵詞矩陣d2分別映射,得到論文地圖和專利地圖;
19、s32、基于所述步驟s31生成的gtm地圖辨別真空點和非真空點,通過gtm逆映射后使用閾值將所述真空點和所述非真空點原始向量轉換得到二進制的關鍵字向量,同時通過所述gtm逆映射和設置閾值確定所述真空點和所述非真空點中包含的術語,并解釋所述真空點和所述非真空點包含的意義;
20、s33、通過語義關系和引用關系構建鏈接;所述語義關系是通過對s32中得到的所述關鍵字向量進行余弦相似度計算,得到所述論文非真空點和所述專利非真空點的語義相似性,將余弦相似度計算結果小于0.3的兩個所述非真空點連接構建所述語義鏈接關系;所述引用關系是利用余弦相似度來測量所述專利真空點與四周的點之間的相似度,得到與所述專利真空點相似度最高的周圍點,將所述周圍點與所述論文非真空點的所述引用鏈接關系視為所述專利真空點與所述論文非真空點之間的所述引用鏈接關系;
21、s34、將步驟s33中得到的所述語義鏈接關系以8:2的比例隨機分為訓練集和測試集,用于鏈接預測,并得到鏈接預測指標;選擇所述鏈接預測指標中auc值最高的,根據選擇的所述鏈接預測指標,預測所述專利真空點周圍的所述專利非真空點與所述論文非真空點之本文檔來自技高網...
【技術保護點】
1.一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,所述步驟S1中收集并預處理數據具體為,使用包括標題、摘要、出版日期和期刊來源的搜索策略來收集結構化數據,并通過分割、分詞、詞形還原和去除停用詞從論文和專利摘要中提取關鍵詞。
3.根據權利要求1所述的一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,所述步驟S2是基于所述BERTopic神經網絡主題模型來分析所述主題趨勢,具體包括以下步驟:
4.根據權利要求1所述的一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,所述步驟S3是通過GTM可視化發現技術真空,并獲得目標技術機會,具體包括以下步驟:
5.根據權利要求1所述的一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,權利要求6中所述步驟S33中使用的所述預設閾值為0.3,所述步驟S34中所使用的所述預設比例為8:2。
6.根據權利要求1所述的一種基于
7.一種基于論文和專利的雙層GTM地圖的技術機會識別方法,其特征在于,包括至少一個處理器,以及與所述至少一個處理器通信連接的存儲器;所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1至6中任一項所述的一種基于論文和專利的雙層GTM地圖的技術機會識別方法。
...【技術特征摘要】
1.一種基于論文和專利的雙層gtm地圖的技術機會識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于論文和專利的雙層gtm地圖的技術機會識別方法,其特征在于,所述步驟s1中收集并預處理數據具體為,使用包括標題、摘要、出版日期和期刊來源的搜索策略來收集結構化數據,并通過分割、分詞、詞形還原和去除停用詞從論文和專利摘要中提取關鍵詞。
3.根據權利要求1所述的一種基于論文和專利的雙層gtm地圖的技術機會識別方法,其特征在于,所述步驟s2是基于所述bertopic神經網絡主題模型來分析所述主題趨勢,具體包括以下步驟:
4.根據權利要求1所述的一種基于論文和專利的雙層gtm地圖的技術機會識別方法,其特征在于,所述步驟s3是通過gtm可視化發現技術真空,并獲得目標技術機會,具體包括以下步驟:
...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。