• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于新聞數據的股票自動匹配分類方法和系統技術方案

    技術編號:8980727 閱讀:253 留言:0更新日期:2013-07-31 22:49
    本發明專利技術涉及股票信息的匹配分類方法和系統,尤其涉及一種基于新聞數據的股票自動匹配分類方法和系統,其特征在于包括如下步驟:建立一本地數據庫;對歷史新聞數據進行分詞、篩選,提取關鍵詞序列,構造個股關鍵詞序列相關性序列模型,計算個股之間的相關性,結合聚類分析算法,對股票進行分類;對實時新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,再和個股關鍵詞序列相關性序列模型進行自動匹配。本發明專利技術采用基于新聞數據的股票關鍵詞序列挖掘技術,實現對股票的自動分類,該方法全面、準確,并針對突發新聞事件自動給出匹配度較高的股票,方法簡便易行,為股民提供了更好的投資依據。

    【技術實現步驟摘要】

    本專利技術涉及股票信息的匹配分類方法和系統,尤其涉及一種基于新聞數據的股票自動匹配分類方法和系統
    技術介紹
    傳統的互聯網搜索引擎技術,使用特定關鍵詞對網站頁面進行標注,通過將用戶搜索關鍵詞與網頁關鍵詞進行匹配給出搜索結果。隨著Web技術的發展,每天都有大量的圖片、博客、視頻發布到網上,信息的極度爆炸使得很難通過簡單的關鍵詞來幫助人們找到他們需要的信息。而推薦引擎的出現,使用戶獲取信息的方式從簡單的關鍵詞搜索轉換到更高級更符合人們使用習慣的上下文信息更豐富的信息發現。通過挖掘網頁和用戶數據的相關性,構造網頁和用戶的關鍵詞序列,在此基礎上計算網頁、用戶之間以及網頁和用戶之間的相關性,從而獲得更加準確的搜索結果,并根據用戶行為不斷優化搜索結果。傳統的股票分類往往是靜態的,通常是基于某一特征對股票進行劃分,例如基于行業、地域、概念、風格指數等。然而,上市公司的業務一直在發展,主營方向也會有所變化,另外,不同板塊的股票對同一新聞事件的反饋并非都不相同,因此,靜態的股票分類方法有時不能很好地反映股票的屬性。而傳統的選股通常是根據個人的經驗來判斷,一般的股民可以通過閱讀相關的新聞研報做出自己的判斷;然而,面對不斷增加的股票數量以及海量的新聞數據,個人的精力和經驗有限,很難對股票市場進行全面準確地觀察和分析。
    技術實現思路
    本專利技術提供一種基于新聞數據的股票自動匹配分類方法和系統,從海量新聞數據出發,挖掘能夠較全面體現股票屬性的關鍵詞序列,通過分析股票關鍵詞序列之間的相關性對股票進行分類,同時通過分析新聞數據的關鍵詞序列和股票關鍵詞序列之間的相關性,給出與新聞數據最佳 匹配的股票。為了達到上述目的,本專利技術采用如下技術方案:一種基于新聞數據的股票自動匹配分類方法,,其特征在于包括如下步驟:(A)建立一本地數據庫;(B)從外界抓取至少一則相關個股的歷史新聞數據,儲存到本地數據庫中,建立相應的個股序號,并對每一則歷史新聞數據進行分詞、篩選,提取其中與個股相關的關鍵詞序列;(C)統計與上述個股相關的關鍵詞序列中各關鍵詞出現的頻次,在此基礎上計算相應的關鍵詞相關性系數,構造個股關鍵詞序列相關性序列模型,并進行參數優化;然后根據個股關鍵詞序列相關性序列模型計算個股之間的相關性,并根據個股之間的相關性,結合聚類分析算法,對股票進行分類;以及(D)從外界抓取實時新聞數據,儲存到本地數據庫中,對該新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,通過將實時新聞數據的實時關鍵詞序列相關性序列和上述步驟C中的個股關鍵詞序列相關性序列模型進行自動匹配,選取相關性最高的個股作為最終的最佳匹配結果。在所述步驟B中,個股序號為股票A,股票B,……,股票N ;關鍵詞序列為關鍵詞1,關鍵詞2,……關鍵詞M ;在所述步驟C中,個股關鍵詞序列相關性序列模型寫成矩陣形 式為:本文檔來自技高網...

    【技術保護點】
    一種基于新聞數據的股票自動匹配分類方法,其特征在于包括如下步驟:(A)建立一本地數據庫;(B)從外界抓取至少一則相關個股的歷史新聞數據,儲存到本地數據庫中,建立相應的個股序號,并對每一則歷史新聞數據進行分詞、篩選,提取其中與個股相關的關鍵詞序列;(C)統計與上述個股相關的關鍵詞序列中各關鍵詞出現的頻次,在此基礎上計算相應的關鍵詞相關性系數,構造個股關鍵詞序列相關性序列模型,并進行參數優化;然后根據個股關鍵詞序列相關性序列模型計算個股之間的相關性,并根據個股之間的相關性,結合聚類分析算法,對股票進行分類;以及(D)從外界抓取實時新聞數據,儲存到本地數據庫中,對該新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,通過將實時新聞數據的實時關鍵詞序列相關性序列和上述步驟C中的個股關鍵詞序列相關性序列模型進行自動匹配,選取相關性最高的個股作為最終的最佳匹配結果。

    【技術特征摘要】
    1.一種基于新聞數據的股票自動匹配分類方法,其特征在于包括如下步驟: (A)建立一本地數據庫; (B)從外界抓取至少一則相關個股的歷史新聞數據,儲存到本地數據庫中,建立相應的個股序號,并對每一則歷史新聞數據進行分詞、篩選,提取其中與個股相關的關鍵詞序列; (C)統計與上述個股相關的關鍵詞序列中各關鍵詞出現的頻次,在此基礎上計算相應的關鍵詞相關性系數,構造個股關鍵詞序列相關性序列模型,并進行參數優化;然后根據個股關鍵詞序列相關性序列模型計算個股之間的相關性,并根據個股之間的相關性,結合聚類分析算法,對股票進行分類;以及 (D)從外界抓取實時新聞數據,儲存到本地數據庫中,對該新聞數據進行分詞、篩選,提取實時關鍵詞序列,計算實時關鍵詞序列相關性序列,通過將實時新聞數據的實時關鍵詞序列相關性序列和上述步驟C中的個股關鍵詞序列相關性序列模型進行自動匹配,選取相關性最高的個股作為最終的最佳匹配結果。2.根據權利要求1所述的基于新聞數據的股票自動匹配分類方法,其特征在于: 在所述步驟B中,個股序號為股票A,股票B,……,股票N ;關鍵詞序列為關鍵詞I,關鍵詞2,……關鍵詞M ;在所述步驟C中,個股關鍵詞序列相關性序列模型寫成矩陣形式為:3.根據權利要求2所述的基于新聞數據的股票自動匹配分類方法,其特征在于:所述個股之間的相關性,即歐氏距離的計算公式為:4.根據權利要求1所述的基于新聞數據的股票自動匹配分類方法,其...

    【專利技術屬性】
    技術研發人員:何波,蔣永磊丁志敏,
    申請(專利權)人:西藏同信證券有限責任公司,
    類型:發明
    國別省市:

    相關技術
      暫無相關專利
    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码日韩av无码网站冲| AV大片在线无码永久免费| 亚洲成a人在线看天堂无码 | 亚洲一区精品无码| 人妻少妇偷人精品无码| 亚洲人AV在线无码影院观看| 寂寞少妇做spa按摩无码| 精品日韩亚洲AV无码| 免费无码作爱视频| 亚洲午夜成人精品无码色欲| 免费无码H肉动漫在线观看麻豆| 亚洲另类无码一区二区三区| 夜夜添无码一区二区三区| 国产成人A人亚洲精品无码| 人妻无码久久久久久久久久久| 国产AV无码专区亚洲Av| 免费人妻av无码专区| 精品无码av无码专区| 日韩精品无码AV成人观看| 国产精品无码v在线观看| 无码中文在线二区免费| 久久久久久人妻无码| 无码性午夜视频在线观看| 亚洲一区AV无码少妇电影☆| 本道久久综合无码中文字幕| av无码久久久久不卡免费网站| 久久精品成人无码观看56| 亚洲啪啪AV无码片| 亚洲va无码va在线va天堂| 人妻中文无码久热丝袜| 国产亚洲大尺度无码无码专线| 亚洲AⅤ无码一区二区三区在线 | 亚洲精品无码人妻无码| 久久久久久亚洲Av无码精品专口 | 久久伊人亚洲AV无码网站| 国产精品亚洲专区无码不卡| 国产精品无码亚洲一区二区三区 | 国产午夜无码片免费| 免费无码又爽又刺激网站直播| 成人av片无码免费天天看| 国产AV无码专区亚洲AV手机麻豆|