【技術實現步驟摘要】
用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質
[0001]本專利技術屬于大數據
,尤其涉及自然語言處理
,具體是指一種用于實現金融領域實體識別和情感分析的方法、裝置、處理器及其計算機可讀存儲介質。
技術介紹
[0002]自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。簡單來說,自然語言處理的過程就是讓機器去理解人的文本或語言,其中如翻譯、語音識別、語義理解、智能問答,知識圖譜等都屬于NLP的范疇。
[0003]自計算機誕生伊始,人類就致力于讓機器來理解我們語言。隨著人工智能、計算機科學、信息工程、統計學、甚至語言學等學科知識的不斷進步,目前NLP已經擁有了大量的商業應用,如機器翻譯(Google翻譯、有道翻譯等)、知識圖譜(以Google為代表的搜索引擎)、智能問答(Apple的Siri、亞馬遜的Alexa以及各種智能機器人)等等。
[0004]但是,金融領域的NLP目前仍處于探索階段,金融本身是一個專業性很高的領域,很多詞匯在金融語境下會產生特殊含義,所有的子問題都會有一個獨特的理解方式,而且金融領域衡量處理結果的方式也與其他領域不同。因此,金融領域的NLP需要準備特殊的訓練數據集,而目前NLP所有方法都是基于大量的數據集基礎上,數據集的缺乏也是目前NLP在 ...
【技術保護點】
【技術特征摘要】
1.一種用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的方法包括以下步驟:(1)采集金融領域多方數據源,進行文本數據的解析處理;(2)根據預設的實體名稱,對解析后的文本數據進行名稱要素的抽取;(3)基于所抽取的名稱要素在整篇文本中的詞頻統計結果,進行實體識別判斷;(4)基于上述步驟(3)獲取到的一個或多個實體,通過訓練模型進行細粒度情感分析判斷;(5)基于上述步驟(3)和(4)獲取的結果,將對應的文本打上判斷識別后的標簽。2.根據權利要求1所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的多方數據源包括但不限于金融領域中的新聞類、資訊類以及公告類的數據。3.根據權利要求2所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(1)具體為:對采集到的金融領域多方數據進行包括但不限于去除HTML標簽、統一轉為UTF
?
8編碼的文本解析操作。4.根據權利要求1所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(2)具體包括以下步驟:(2.1)預先設置包括但不限于公司名稱、股票名稱以及債券名稱的實體名稱;(2.2)采用BILSTM+CRF算法訓練的抽取模型進行文本數據的要素抽取。5.根據權利要求4所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(2.2)具體包括以下步驟:(2.2.1)針對采集到的每一句文本中的每一字符,通過Glove詞向量獲得每一個字符的向量表征;(2.2.2)通過雙向LSTM網絡層獲取每一個字符所屬標記的概率分布情況;(2.2.3)通過CRF層獲取各個標記之間的轉移概率;(2.2.4)通過維特比算法從所有可能的標記路徑中解析出每個字符的標記概率和標記轉移概率之和最大的最優路徑,以獲取所需的文本要素信息。6.根據權利要求5所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的抽取模型中設置的模型訓練參數預設值包括:學習率learning_rate、最長序列長度max_seq_length以及BILSTM隱層神經元個數hidden_size,其中,所述的學習率learning_rate的參數預設值設置為0.001;所述的最長序列長度max_seq_length的參數預設值設置為200;所述的BILSTM隱層神經元個數hidden_size的參數預設值設置為128。7.根據權利要求4所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的抽取模型將在每一個的模型訓練當中不斷優化,并通過累計訓練積累的語料庫對所述的抽取模型中的實體進行二次校對,以避免實體名稱不完整。8.根據權利要求7所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(3)具體為:對進行消歧處理后獲取的實體名稱進行詞頻統計處理,并結合相應實體在文本中的位
置信息,確定最終的一個或多個實體。9.根據權利要求8所述的用于實現金融領域實體識別和情感分析的方法,其特征在于,所述的步驟(4)...
【專利技術屬性】
技術研發人員:俞楓,梅龍,
申請(專利權)人:國泰君安證券股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。