【技術實現步驟摘要】
本專利技術涉及股票信息的匹配分類方法和系統,尤其涉及一種基于新聞數據的股票自動匹配分類方法和系統。
技術介紹
傳統的互聯網搜索引擎技術,使用特定關鍵詞對網站頁面進行標注,通過將用戶搜索關鍵詞與網頁關鍵詞進行匹配給出搜索結果。隨著Web技術的發展,每天都有大量的圖片、博客、視頻發布到網上,信息的極度爆炸使得很難通過簡單的關鍵詞來幫助人們找到他們需要的信息。而推薦引擎的出現,使用戶獲取信息的方式從簡單的關鍵詞搜索轉換到更高級更符合人們使用習慣的上下文信息更豐富的信息發現。通過挖掘網頁和用戶數據的相關性,構造網頁和用戶的關鍵詞序列,在此基礎上計算網頁、用戶之間以及網頁和用戶之間的相關性,從而獲得更加準確的搜索結果,并根據用戶行為不斷優化搜索結果。傳統的股票分類往往是靜態的,通常是基于某一特征對股票進行劃分,例如基于行業、地域、概念、風格指數等。然而,上市公司的業務一直在發展,主營方向也會有所變化,另外,不同板塊的股票對同一新聞事件的反饋并非都不相同,因此,靜態的股票分類方法有時不能很好地反映股票的屬性。而傳統的選股通常是根據個人的經驗來判斷,一般的股民可以通過閱讀相關的新聞研報做出自己的判斷;然而,面對不斷增加的股票數量以及海量的新聞數據,個人的精力和經驗有限,很難對股票市場進行全面準確地觀察和分析。
技術實現思路
本專利技術提供一種基于新聞數據的股票自動匹配分類方法和系統,從海量新聞數據出發,挖掘能夠較全面體現股票屬性的關鍵詞序列,通過分析股票關鍵詞序列之間的相關性對股票進行分類,同時通過分析新聞數據的關鍵詞序列和股票關鍵詞序列之間的相關性,給出與新聞數據最佳 ...
【技術保護點】
一種基于新聞數據的股票自動匹配分類方法,其特征在于包括如下步驟:(A)建立一本地數據庫;(B)從外界抓取至少一則相關個股的歷史新聞數據,儲存到本地數據庫中,建立相應的個股序號,并對每一則歷史新聞數據進行分詞、篩選,提取其中與個股相關的關鍵詞序列;(C)統計與上述個股相關的關鍵詞序列中各關鍵詞出現的頻次,在此基礎上計算相應的關鍵詞相關性系數,構造個股關鍵詞序列相關性序列模型,并進行參數優化;然后根據個股關鍵詞序列相關性序列模型計算個股之間的相關性,并根據個股之間的相關性,結合聚類分析算法,對股票進行分類;以及(D)從外界抓取實時新聞數據,儲存到本地數據庫中,對該新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,通過將實時新聞數據的實時關鍵詞序列相關性序列和上述步驟C中的個股關鍵詞序列相關性序列模型進行自動匹配,選取相關性最高的個股作為最終的最佳匹配結果。
【技術特征摘要】
1.一種基于新聞數據的股票自動匹配分類方法,其特征在于包括如下步驟: (A)建立一本地數據庫; (B)從外界抓取至少一則相關個股的歷史新聞數據,儲存到本地數據庫中,建立相應的個股序號,并對每一則歷史新聞數據進行分詞、篩選,提取其中與個股相關的關鍵詞序列; (C)統計與上述個股相關的關鍵詞序列中各關鍵詞出現的頻次,在此基礎上計算相應的關鍵詞相關性系數,構造個股關鍵詞序列相關性序列模型,并進行參數優化;然后根據個股關鍵詞序列相關性序列模型計算個股之間的相關性,并根據個股之間的相關性,結合聚類分析算法,對股票進行分類;以及 (D)從外界抓取實時新聞數據,儲存到本地數據庫中,對該新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,通過將實時新聞數據的實時關鍵詞序列相關性序列和上述步驟C中的個股關鍵詞序列相關性序列模型進行自動匹配,選取相關性最高的個股作為最終的最佳匹配結果。2.根據權利要求1所述的基于新聞數據的股票自動匹配分類方法,其特征在于: 在所述步驟B中,個股序號為股票A,股票B,……,股票N ;關鍵詞序列為關鍵詞I,關鍵詞2,……關鍵詞M ;在所述步驟C中,個股關鍵詞序列相關性序列模型寫成矩陣形式為:3.根據權利要求2所述的基于新聞數據的股票自動匹配分類方法,其特征在于:所述個股之間的相關性,即歐氏距離的計算公式為:4.根據權利要求1所述的基于新聞數據的股票自動匹配分類方法,其...
【專利技術屬性】
技術研發人員:何波,蔣永磊,丁志敏,
申請(專利權)人:西藏同信證券有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。