System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于文本處理,具體的說是一種基于多模態特征的物流政策文件分析方法。
技術介紹
1、在物流政策文件的研究與應用中,確定文件主題是一項基礎且關鍵的工作。然而,當前物流政策文件主題難以確定的問題較為突出,這給政策文件的評價帶來了諸多挑戰。一方面,物流行業涉及多個領域和環節,如運輸、倉儲、配送、供應鏈管理等,政策文件往往涵蓋多個方面的內容,導致其主題的關鍵詞邊界模糊。
2、另一方面,物流政策文件的制定涉及各個地區的多個部門,其中上下部門的政策目標和側重點存在差異,進一步增加了主題確定的復雜性。此外,隨著物流行業的快速發展和新技術的不斷涌現,政策文件需要不斷更新和調整,這也使得物流政策文件的評價面臨動態變化的難題。
3、在這種情況下,無法很好地對物流政策文件進行評價。具體老說,評價標準難以統一,缺乏明確的主題指導,難以確定評價的重點和維度。同時,評價方法的選擇也受到限制,難以準確衡量政策文件的實施效果和影響力。
4、此外,在現有對物流政策文件進行分析的過程中,沒有充分利用物流政策文件的時序特征,無法對物流政策根據時間進行準確靈活的主題分類和分析。
5、此外,在獲取物流政策文件的主題的過程中,沒有對政策文件的格式進行權重調整,導致獲取的主題的關鍵詞不夠準確。
技術實現思路
1、針對現有技術的不足,本專利技術提出了一種基于多模態特征的物流政策文件分析方法,包括以下步驟:
2、步驟?s1:構建物流政策文件詞庫,導入物流政策文件進
3、步驟s2:構建分析模型,分析模型包括基于lda2vec的關鍵詞提取模塊、排序模塊、時序增強模塊和評價模塊,導入步驟s1中已標注的預處理文件至基于lda2vec的關鍵詞提取模塊中,獲取已標注的預處理文件中主題的若干關鍵詞;
4、步驟s3:輸入步驟s2獲取的若干關鍵詞至排序模塊中,通過tf-idf計算每個關鍵詞的重要度得分對關鍵詞進行排序,并通過計算困惑度獲取主題的關鍵詞的確定數量,保留排序在前的確定數量的關鍵詞,并根據排序對確定數量的關鍵詞進行索引標記;
5、步驟s4:輸入步驟s3中的確定數量的關鍵詞至時序增強模塊中,對每個關鍵詞標記時間戳以進行時序索引,獲取融合時序特征的主題的關鍵詞;
6、步驟s5:構建損失函數,根據步驟s1中預設的標簽最小化損失函數對分析模型的參數進行優化;
7、步驟s6:導入特定時段的下級的物流政策文件至訓練后的分析模型中,根據時間戳獲取下級物流政策文件主題的關鍵詞;導入同一時段的上級的物流政策文件至訓練后的分析模型中,根據時間戳獲取上級物流政策文件主題的關鍵詞,在此過程中,分別獲取上級的物流政策文件的全文和小標題處的主題的關鍵詞,并通過設置權重參數進行動態調整;
8、步驟s7:評價模塊通過相似度函數對下級物流政策文件主題的關鍵詞和上級物流政策文件主題的關鍵詞進行處理,獲取上下級協同度和不同時間段不同主題的關鍵詞的相似度。
9、進一步的,步驟s1中構建由物流關鍵詞構成的物流政策文件詞庫;具體為:
10、步驟s11:根據n-gram模型按照窗口大小提取物流政策文件中潛在詞語作為候選詞;
11、步驟s12:基于自信息和互信息的得分情況對候選詞進行排名,根據預設的排名閾值將候選詞導入物流政策文件詞庫,
12、排名的過程表示為:
13、;
14、;
15、;
16、;
17、;
18、;
19、其中,表示左鄰字符串集合的熵,表示右鄰字符串集合的熵,為左鄰字符串集合,為右鄰字符串集合,表示在給定字符串的條件下候選詞出現的概率,為候選詞的字符串的組合,表示得分函數用于計算候選詞的新穎性,表示字符串組合和字符串組合的互信息,用于計算兩個字符串組合之間的相互依賴性,表示歸一化信息函數,用于消除字符串組合長度的影響,是字符串組合和字符串組合的聯合概率分布函數,、分別是字符串組合和字符串組合邊緣概率分布函數,為組成候選詞的各個子詞語的邊緣概率分布函數,表示候選詞w的長度,為候選詞w的得分,和分別為預設的權重。
20、進一步的,步驟s2具體為:
21、步驟s21:獲取物流政策文件的主題的概率分布,具體為:
22、將物流政策文件的總數量定義為,物流政策文件的總詞數表示為,為物流政策文件的索引,為個數量的主題之一;具體地:
23、根據dirichlet分布抽樣生成第篇物流政策文件的主題分布,表示物流政策文件中各個主題的比例;根據dirichlet分布生成每個主題的詞分布,詞分布表示主題中各個詞語的比例,表示為:
24、;
25、;
26、其中,和表示預設的參數,用于控制dirichlet分布的稀疏性;
27、從主題分布中取樣生成第篇文章中第個詞的主題的概率,其中;從詞的多項式分布中取樣生成第篇文檔中第個詞的概率;
28、步驟s22:獲取詞的概率分布,表示為:
29、;
30、對于物流政策文件,其詞的概率分布經過文本分詞處理后已經確定;通過?gibbs抽樣方法對參數、進行估計,并根據步驟s22中的公式進行調整優化,獲得物流政策文件—主題及主題—詞的關系;
31、步驟s23:獲取物流政策文件對應的主題,的定義如下所示:
32、;
33、其中,;
34、步驟s24:通過基于skip-gram詞嵌入模型,獲取主題的詞的上下文詞,將中心詞與最優的上下文詞進行拼接從而獲取主題的關鍵詞;具體如下:
35、預設物流政策文件詞庫的大小為(也即輸入層的神經元個數),詞向量維度為,表示物流政策文件詞庫中的第個候選詞;
36、步驟s241:通過skip-gram詞嵌入模型的輸入層對步驟s24中主題對應的中心詞進行獨熱編碼以進行初始化操作,從而獲取輸入向量,表示實數集,為中心詞在詞匯表中的索引;
37、步驟s242:skip-gram詞嵌入模型的隱藏層對輸入向量進行處理,表示為:
38、;
39、其中,表示隱藏層的輸出,表示隱藏層的權重矩陣;
40、步驟s243:skip-gram詞嵌入模型的輸出層對隱藏層的輸出進行處理,表示為:
41、;
42、其中,表示輸出層的輸出,表示輸出層的權重矩陣,也即中心詞的上下文詞得分,,
43、進一步通過激活函數將上下文詞得分換為得分概率分布;表示為:
44、;
45、其中,表示預測的上下文詞,c表示中心詞在物流政策文件詞庫的索引,表示給定中心詞的情況下出現上下文詞的概率,表示本文檔來自技高網...
【技術保護點】
1.一種基于多模態特征的物流政策文件分析方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S1中構建由物流關鍵詞構成的物流政策文件詞庫;具體為:
3.根據權利要求2所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S2具體為:
4.根據權利要求3所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S3具體為:
5.根據權利要求4所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S4具體為:
6.根據權利要求5所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S6中的導入特定時段的下級的物流政策文件至訓練后的分析模型中,根據時間戳獲取下級物流政策文件主題的關鍵詞;表示為:
7.根據權利要求6所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟S7中的相似度函數具體為:
【技術特征摘要】
1.一種基于多模態特征的物流政策文件分析方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟s1中構建由物流關鍵詞構成的物流政策文件詞庫;具體為:
3.根據權利要求2所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟s2具體為:
4.根據權利要求3所述的一種基于多模態特征的物流政策文件分析方法,其特征在于,步驟s3具體為:<...
【專利技術屬性】
技術研發人員:吳素濃,蘇昌城,徐翔斌,甘衛華,
申請(專利權)人:華東交通大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。