System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于自然語言處理與數據挖掘,具體涉及一種用于科研創新選題選擇的智能輔助方法、系統及裝置。
技術介紹
1、隨著時代的發展和科學技術的進步,社會分工也變得越來越細,每個人為了自身生存發展需要都承擔著越來越繁重的勞動。因此,科學技術已成為當代人類生產生活不可或缺的一項重要工具。
2、科研選題是科技創新的首要問題。在科研實踐中,能準確找到并攻克符合國家發展戰略需求和未來科技創新發展趨勢的科研選題,是實現高水平科技自立自強的重要標志之一。科技創新要下好先手棋、打好主動仗,必須建立科學、自主、開放的科研選題機制,提高科研選題能力,提升重大科研項目布局水平。
3、當前,我國經濟社會發展、能源系統優化升級、新型電力系統建設面臨許多需要解決的現實問題,要求對能夠快速突破、及時解決問題的技術,要抓緊推進;對屬于戰略性、需要久久為功的技術,要提前部署。電網企業需要加大基礎研究和應用研究投入力度,加強產學研合作,建立將重大現實問題轉化為科技問題的科研選題機制,從產業創新需求中凝練科技問題,突破一批底層原理和關鍵核心技術。
4、而科學的產生和發展離不開學科的劃分,隨著社會經濟的發展以及現代信息技術和計算機網絡等手段的大力推廣,為科學研究提供了有效的交流平臺和技術支持。同時,當今社會的知識更新速度也在不斷加快,導致人們對于知識的深度理解能力逐漸下降,而對于知識的廣度掌握程度越來越高。由此造成了專業人員對于本專業的研究已經達到了一定的高峰狀態,想要進一步獲得成功就必須涉足新的
但面對紛繁復雜的知識體系和大
技術實現思路
1、本專利技術的目的就是為了克服上述現有技術存在的缺陷而提供一種用于科研創新選題選擇的智能輔助方法、系統及裝置。
2、本專利技術的目的可以通過以下技術方案來實現:
3、本專利技術一方面提供了一種用于科研創新選題選擇的智能輔助方法,包括以下步驟:
4、獲取科技文獻及其發表時間作為原始數據集;
5、將原始數據集通過文獻形式進行分類,得到論文數據集、專利數據集與技術標準數據集;
6、按照中圖分類法對論文數據集進行領域分類,得到各領域的論文數據集;
7、按照專利類型對專利數據集進行領域分類,得到各領域的專利數據集;
8、按照標準類型對技術標準數據集進行領域分類,得到各領域的技術標準數據集;
9、對各領域的論文數據集、專利數據集與技術標準數據集通過領域類別進行合并,得到各領域的數據集;
10、對各領域的論文數據集與專利數據集提取標題和摘要,對技術標準數據集提取標題和范圍,將提取得到的數據作為該領域的待處理數據集;
11、對待處理數據集進行預處理;
12、使用textrank算法對預處理后的數據集進行關鍵詞提取;
13、將提取的關鍵詞作為其對應科技文獻的研究主題;
14、對各領域所有主題通過發表時間與研究主題分別進行統計分析,得到各領域的熱詞列表與新詞列表,其中熱詞列表包括第一預設時間段內發表的文獻主題及其發表頻次,新詞列表包括只在第二預設時間段內發表的文獻主題及其發表頻次;
15、對熱詞列表與新詞列表根據發表頻次進行排序;
16、獲取用戶輸入的感興趣領域;
17、截取感興趣領域新詞列表前第一預設值位的文獻主題及其發表頻次,查找其文獻主題在感興趣領域熱詞列表中的發表頻次,將該頻次加入截取的列表中,得到近期熱門主題初級列表;
18、對近期熱門主題初級列表以第一預設時間段內的發表頻次進行排序,得到近期熱門主題列表;
19、通過可視化技術將近期熱門主題列表展示給用戶,智能輔助用戶進行科研創新選題選擇。
20、進一步的,所述科技文獻包括:學術期刊、學術論文、會議論文、科技成果、專利文獻與技術標準文獻。
21、進一步的,所述論文數據集包括學術期刊、學術論文、會議論文和科技成果;所述專利數據集包括專利文獻;所述技術標準數據集包括技術標準文獻。
22、進一步的,所述待處理數據包括word、pdf等非結構化數據。
23、進一步的,所述對待處理數據集進行預處理包括一下步驟:
24、讀取待處理數據;
25、將非結構化數據通過python前處理腳本轉換成結構化數據文本;
26、刪除結構化數據文本中因提取過程中產生的空白文本字段,個別異常文本字段,選用基本停用詞庫,補充部分停用詞。
27、進一步的,所述使用textrank算法對預處理后的數據集進行關鍵詞提取,包括以下步驟:
28、文本預處理:包括分詞、去除停用詞、詞性標注,將文本轉換成適合算法處理的格式;
29、構建圖模型:將處理后的文本中的詞語或句子作為節點,根據詞語或句子之間的關系構建圖模型;
30、計算節點權重:利用pagerank算法的迭代思想,計算圖中每個節點的權重;
31、排序與提取:根據節點的權重進行排序,將排序后前第二預設值位的節點作為該文本的關鍵詞。
32、進一步的,所述節點之間的關系包括共現關系、語義相似度,所述節點的權重由其他節點的權重和它們之間的關系強度共同決定。
33、進一步的,所述第一預設時間段大于第二預設時間段,所述第一預設時間段為近五年,所述第二預設時間段為近一年。
34、本專利技術另一方面提供了一種用于科研創新選題選擇的智能輔助系統,包括:數據獲取模塊、數據分類模塊、數據提取模塊、數據預處理模塊、關鍵詞提取模塊、熱詞新詞處理模塊、輸入模塊與可視化模塊,所述關鍵詞提取模塊用于通過textrank算法對預本文檔來自技高網...
【技術保護點】
1.一種用于科研創新選題選擇的智能輔助方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述科技文獻包括:學術期刊、學術論文、會議論文、科技成果、專利文獻與技術標準文獻。
3.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述論文數據集包括學術期刊、學術論文、會議論文和科技成果;所述專利數據集包括專利文獻;所述技術標準數據集包括技術標準文獻。
4.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述待處理數據包括word、pdf等非結構化數據。
5.根據權利要求1或4所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述對待處理數據集進行預處理包括一下步驟:
6.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述使用TextRank算法對預處理后的數據集進行關鍵詞提取,包括以下步驟:
7.根據權利要求6所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述節點
8.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述第一預設時間段大于第二預設時間段,所述第一預設時間段為近五年,所述第二預設時間段為近一年。
9.一種用于科研創新選題選擇的智能輔助系統,其特征在于,包括:數據獲取模塊、數據分類模塊、數據提取模塊、數據預處理模塊、關鍵詞提取模塊、熱詞新詞處理模塊、輸入模塊與可視化模塊,所述關鍵詞提取模塊用于通過TextRank算法對預處理后的數據集進行關鍵詞提取,所述熱詞新詞處理模塊用于對各領域所有主題通過發表時間與研究主題分別進行統計分析,得到各領域的熱詞列表與新詞列表,所述輸入模塊用于獲取用戶輸入的感興趣領域,并將感興趣領域發送給可視化模塊,所述可視化模塊用于接收輸入模塊發送的感興趣領域,并根據感興趣領域通過可視化技術將對應領域的近期熱門主題列表展示給用戶。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至8任一項所述用于科研創新選題選擇的智能輔助方法。
...【技術特征摘要】
1.一種用于科研創新選題選擇的智能輔助方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述科技文獻包括:學術期刊、學術論文、會議論文、科技成果、專利文獻與技術標準文獻。
3.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述論文數據集包括學術期刊、學術論文、會議論文和科技成果;所述專利數據集包括專利文獻;所述技術標準數據集包括技術標準文獻。
4.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述待處理數據包括word、pdf等非結構化數據。
5.根據權利要求1或4所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述對待處理數據集進行預處理包括一下步驟:
6.根據權利要求1所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述使用textrank算法對預處理后的數據集進行關鍵詞提取,包括以下步驟:
7.根據權利要求6所述的一種用于科研創新選題選擇的智能輔助方法,其特征在于,所述節點之間的關系包括共現關...
【專利技術屬性】
技術研發人員:王媚,陸啟宇,張琪祁,錢程晨,劉隰蒲,趙鍇,冉月,李永,趙濤,楊小靜,周超,安靜,
申請(專利權)人:國網上海市電力公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。