• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質制造方法及圖紙

    技術編號:32584514 閱讀:20 留言:0更新日期:2022-03-09 17:16
    本發明專利技術涉及一種用于實現金融領域實體識別和情感分析的方法,其中,該方法包括:采集金融領域多方數據源,進行文本數據的解析處理;根據預設的實體名稱,對解析后的文本數據進行名稱要素的抽取;基于所抽取的名稱要素在整篇文本中的詞頻統計結果,進行實體識別判斷;基于上述獲取到的一個或多個實體,通過訓練模型進行細粒度情感分析判斷;基于上述獲取的結果,將對應的文本打上判斷識別后的標簽。本發明專利技術還涉及一種相應的裝置、存儲器及其計算機可讀存儲介質。采用了本發明專利技術的該用于實現金融領域實體識別和情感分析的方法、裝置、存儲器及其計算機可讀存儲介質,基于文本信息判斷出其主要描述對象的情感極性,能夠為海量數據帶來可觀的使用價值。可觀的使用價值。可觀的使用價值。

    【技術實現步驟摘要】
    用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質


    [0001]本專利技術屬于大數據
    ,尤其涉及自然語言處理
    ,具體是指一種用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質。

    技術介紹

    [0002]自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。簡單來說,自然語言處理的過程就是讓機器去理解人的文本或語言,其中如翻譯、語音識別、語義理解、智能問答,知識圖譜等都屬于NLP的范疇。
    [0003]自計算機誕生伊始,人類就致力于讓機器來理解我們語言。隨著人工智能、計算機科學、信息工程、統計學、甚至語言學等學科知識的不斷進步,目前NLP已經擁有了大量的商業應用,如機器翻譯(Google翻譯、有道翻譯等)、知識圖譜(以Google為代表的搜索引擎)、智能問答(Apple的Siri、亞馬遜的Alexa以及各種智能機器人)等等。
    [0004]但是,金融領域的NLP目前仍處于探索階段,金融本身是一個專業性很高的領域,很多詞匯在金融語境下會產生特殊含義,所有的子問題都會有一個獨特的理解方式,而且金融領域衡量處理結果的方式也與其他領域不同。因此,金融領域的NLP需要準備特殊的訓練數據集,而目前NLP所有方法都是基于大量的數據集基礎上,數據集的缺乏也是目前NLP在金融領域所面臨的最大問題之一,這也是金融領域高度的專業性與深度導致的。
    [0005]針對金融領域的輿情分析,目前金融資訊類信息十分豐富,比如各種公告、新聞、年報等信息,我們難以靠人工閱讀、分析所有相關的資訊,但這類數據對事件分析、決策輔助、監控預警的重要性卻愈發顯著。甚至我們可以通過NLP相關技術在金融領域實現對市場未來的走勢一定的預見性。對于紛繁復雜的資訊類數據,我們可以通過NLP相關技術對資訊中的主要描述對象進行判斷,進而基于資訊進一步判斷其主要描述對象的情感極性,這樣可以有效的幫助我們識別、過濾有效資訊,而非盲目的去全盤接受。

    技術實現思路

    [0006]本專利技術的目的是克服了上述現有技術的缺點,提供了一種能夠有效過濾價值信息的用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質。
    [0007]為了實現上述目的,本專利技術的用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質如下:
    [0008]該用于實現金融領域實體識別和情感分析的方法,其主要特點是,所述的方法包括以下步驟:
    [0009](1)采集金融領域多方數據源,進行文本數據的解析處理;
    [0010](2)根據預設的實體名稱,對解析后的文本數據進行名稱要素的抽取;
    [0011](3)基于所抽取的名稱要素在整篇文本中的詞頻統計結果,進行實體識別判斷;
    [0012](4)基于上述步驟(3)獲取到的一個或多個實體,通過訓練模型進行細粒度情感分析判斷;
    [0013](5)基于上述步驟(3)和(4)獲取的結果,將對應的文本打上判斷識別后的標簽。
    [0014]較佳地,所述的多方數據源包括但不限于金融領域中的新聞類、資訊類以及公告類的數據。
    [0015]較佳地,所述的步驟(1)具體為:
    [0016]對采集到的金融領域多方數據進行包括但不限于去除HTML標簽、統一轉為UTF
    ?
    8編碼的文本解析操作。
    [0017]較佳地,所述的步驟(2)具體包括以下步驟:
    [0018](2.1)預先設置包括但不限于公司名稱、股票名稱以及債券名稱的實體名稱;
    [0019](2.2)采用BILSTM+CRF算法訓練的抽取模型進行文本數據的要素抽取。
    [0020]較佳地,所述的步驟(2.2)具體包括以下步驟:
    [0021](2.2.1)針對采集到的每一句文本中的每一字符,通過Glove詞向量獲得每一個字符的向量表征;
    [0022](2.2.2)通過雙向LSTM網絡層獲取每一個字符所屬標記的概率分布情況;
    [0023](2.2.3)通過CRF層獲取各個標記之間的轉移概率;
    [0024](2.2.4)通過維特比算法從所有可能的標記路徑中解析出每個字符的標記概率和標記轉移概率之和最大的最優路徑,以獲取所需的文本要素信息。
    [0025]較佳地,所述的抽取模型中設置的模型訓練參數預設值包括:
    [0026]學習率learning_rate、最長序列長度max_seq_length以及BILSTM隱層神經元個數hidden_size,其中,
    [0027]所述的學習率learning_rate的參數預設值設置為0.001;
    [0028]所述的最長序列長度max_seq_length的參數預設值設置為200;
    [0029]所述的BILSTM隱層神經元個數hidden_size的參數預設值設置為128。
    [0030]較佳地,所述的抽取模型將在每一個的模型訓練當中不斷優化,并通過累計訓練積累的語料庫對所述的抽取模型中的實體進行二次校對,以避免實體名稱不完整。
    [0031]較佳地,所述的步驟(3)具體為:
    [0032]對進行消歧處理后獲取的實體名稱進行詞頻統計處理,并結合相應實體在文本中的位置信息,確定最終的一個或多個實體。
    [0033]較佳地,所述的步驟(4)具體為:
    [0034]對獲取到的一個或多個實體,逐個結合原文文本通過Doc
    ?
    level Target Dependence LSTM訓練模型完成細粒度情感分析判斷。
    [0035]較佳地,所述的步驟(4)具體包括以下步驟:
    [0036](4.1)對獲取到的文本篩選出包含實體或實體簡稱的句子;
    [0037](4.2)基于實體或實體簡稱在句子中的位置,將每一句話拆分為左半句和右半句;
    [0038](4.3)每一個左半句和右半句都需經過獨立的BiLSTM網絡進行訓練;
    [0039](4.4)將訓練完成后的左右兩個BiLSTM網絡輸出結果進行合并,重復上述步驟直到所有句子均拆分和訓練完畢;
    [0040](4.5)將每一個句子拆分合并后的訓練結果進行聚合處理;
    [0041](4.6)通過所述的Doc
    ?
    level Target Dependence LSTM訓練模型中的線性層以及Softmax層對每一個句子中的實體進行正面、中性、負面的情感標簽概率統計;
    [0042](4.7)根據上述步驟的概率統計結果,選擇概率值最大的情感標簽作為當前該實體的細粒度情感分析結果。
    [0043]較佳地,所述的Doc
    ?
    level Target Dependence LSTM訓練模型中設置的本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的方法包括以下步驟:(1)采集金融領域多方數據源,進行文本數據的解析處理;(2)根據預設的實體名稱,對解析后的文本數據進行名稱要素的抽取;(3)基于所抽取的名稱要素在整篇文本中的詞頻統計結果,進行實體識別判斷;(4)基于上述步驟(3)獲取到的一個或多個實體,通過訓練模型進行細粒度情感分析判斷;(5)基于上述步驟(3)和(4)獲取的結果,將對應的文本打上判斷識別后的標簽。2.根據權利要求1所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的多方數據源包括但不限于金融領域中的新聞類、資訊類以及公告類的數據。3.根據權利要求2所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(1)具體為:對采集到的金融領域多方數據進行包括但不限于去除HTML標簽、統一轉為UTF
    ?
    8編碼的文本解析操作。4.根據權利要求1所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(2)具體包括以下步驟:(2.1)預先設置包括但不限于公司名稱、股票名稱以及債券名稱的實體名稱;(2.2)采用BILSTM+CRF算法訓練的抽取模型進行文本數據的要素抽取。5.根據權利要求4所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(2.2)具體包括以下步驟:(2.2.1)針對采集到的每一句文本中的每一字符,通過Glove詞向量獲得每一個字符的向量表征;(2.2.2)通過雙向LSTM網絡層獲取每一個字符所屬標記的概率分布情況;(2.2.3)通過CRF層獲取各個標記之間的轉移概率;(2.2.4)通過維特比算法從所有可能的標記路徑中解析出每個字符的標記概率和標記轉移概率之和最大的最優路徑,以獲取所需的文本要素信息。6.根據權利要求5所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的抽取模型中設置的模型訓練參數預設值包括:學習率learning_rate、最長序列長度max_seq_length以及BILSTM隱層神經元個數hidden_size,其中,所述的學習率learning_rate的參數預設值設置為0.001;所述的最長序列長度max_seq_length的參數預設值設置為200;所述的BILSTM隱層神經元個數hidden_size的參數預設值設置為128。7.根據權利要求4所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的抽取模型將在每一個的模型訓練當中不斷優化,并通過累計訓練積累的語料庫對所述的抽取模型中的實體進行二次校對,以避免實體名稱不完整。8.根據權利要求7所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(3)具體為:對進行消歧處理后獲取的實體名稱進行詞頻統計處理,并結合相應實體在文本中的位
    置信息,確定最終的一個或多個實體。9.根據權利要求8所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(4)...

    【專利技術屬性】
    技術研發人員:俞楓梅龍
    申請(專利權)人:國泰君安證券股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久精品亚洲AV久久久无码| 精品久久久无码人妻中文字幕| r级无码视频在线观看| 精品无码综合一区| 无码乱码av天堂一区二区| 精品无码成人片一区二区| 日韩AV无码精品人妻系列| 乱人伦人妻中文字幕无码久久网| 亚洲啪啪AV无码片| 特黄熟妇丰满人妻无码| 亚洲精品无码成人| 无码精品人妻一区二区三区漫画| av中文无码乱人伦在线观看| 亚洲AV无码成人精品区蜜桃 | 亚洲Av无码国产情品久久| 少妇无码一区二区二三区| 中文字幕丰满乱子伦无码专区| 亚洲中文字幕久久精品无码VA| 亚洲av中文无码乱人伦在线r▽| 国产爆乳无码视频在线观看3| AV无码久久久久不卡网站下载| 无码性午夜视频在线观看| 亚洲精品无码久久久久| 寂寞少妇做spa按摩无码| 精品一区二区三区无码免费直播| 亚洲AV成人无码网站| 亚洲av永久无码天堂网| 久久久无码精品亚洲日韩京东传媒| 国产成人无码18禁午夜福利p| 久久精品无码专区免费| 东京热加勒比无码视频| 中文字幕无码视频专区| 野花在线无码视频在线播放| 超清无码一区二区三区| 久久久久成人精品无码| 亚洲av无码专区国产乱码在线观看| 高清无码视频直接看| 亚洲中文字幕在线无码一区二区| 伊人天堂av无码av日韩av| 激情射精爆插热吻无码视频| 国产成人年无码AV片在线观看 |