System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種基于領域知識圖譜stm32位功能問答方法及系統,屬于知識圖譜。
技術介紹
1、近幾年來,學者們將知識圖譜技術應用于關系預測、關系推理、智能問答和推薦系統等領域,為各個領域的應用拓展提供了支持。其中,問答系統的發展分為以下幾個階段。一是基于問題答案對的問答系統;二是基于知識圖譜的問答系統;三是基于大規模語言模型的問答系統。
2、在當今快速發展的技術環境中,處理器和微控制器的技術不斷進步,帶來了前所未有的計算力,極大地推動了人工智能、物聯網等領域的發展。stm32高性能微控制器被廣泛使用在各種復雜應用中,體現了其強大的功能和靈活性。盡管許多經驗豐富的開發者提供了寶貴的開源項目和學習資源,但是對使用寄存器編程的開發者而言,在編碼過程中需要記住大量的外設和寄存器以及他們的功能、地址等信息,這增加了編程難度。
技術實現思路
1、本專利技術所要解決的技術問題是,克服現有技術的不足而提供一種基于領域知識圖譜stm32位功能問答方法及系統,能夠全面、快速、準確地查找到具體寄存器位功能信息及編碼。
2、本專利技術提供一種基于領域知識圖譜stm32位功能問答方法,包括以下步驟:
3、s1、外設、寄存器及寄存器的每一位相關信息構建三元組,將三元組存入neo4j中形成可視化的領域知識圖譜;
4、s2、使用預訓練模型mbert+bilstm+s-attention+crf對用戶提出的stm32相關問題問句進行實體識別;
5、s3、
6、本專利技術提供一種基于領域知識圖譜stm32位功能問答方法,將stm32外設、寄存器的信息整理到一起,形成一個巨大的語義網絡,并使用預訓練模型和知識圖譜相關技術實現問答,通過問答的形式將中文表達轉換為寄存器位功能的編碼,可以更全面、快速、準確地查找到領域內的知識信息。
7、作為本專利技術進一步優化的技術方案如下:
8、所述步驟s1中,stm32領域知識圖譜是根據工具tabula提取的pdf表格數據和人工整理補充形成的excel表格所構建,其具體構建方式如下所示:
9、s1.1、表格提取,使用開源項目tabula對pdf文檔中的標準表格進行檢測和抽取表格信息;
10、s1.2、人工構建,對包含嵌套的復雜表格,人工進行矯正和補充;
11、s1.3、根據st官方提供的寄存器相關說明手冊構建實體-關系-實體三元組,將三元組存入數據庫neo4j形成stm32知識圖譜。
12、上述步驟1.1中,使用開源項目tabula對st官方提供的寄存器相關說明手冊pdf版本進行表格信息提取,表格信息包括寄存器具體位的英文中文名稱,以及位的具體解釋,對提取的表格數據進行數據清理,將提取的數據按照一定的規則填入excel表格中構建知識圖譜,并人工補充寄存器地址信息;
13、上述步驟s1.3中,領域知識圖譜中的實體包括外設、寄存器以及寄存器每一位的信息,實體屬性包括外設、寄存器的地址、復位值以及寄存器每一位的可讀可寫性和具體每一位功能描述;領域知識圖譜中的關系是外設與寄存器之間的關系、寄存器與寄存器每一位的關系,寄存器具體位與具體功能之間的關系。
14、所述步驟s2中,命名實體識別模型中用戶問句的主要數據來源包括網站中用戶提出的問題問句以及根據模板嵌入實體形成的問句;
15、對相關stm32各種用戶問題問句進行分類及自動標注,清洗從網站中獲取的問題問句數據,對所有問題問句進行bio標注,使用python語言對數據進行自動標注,建立實體識別模型mbert+bilstm+s-attention+crf。
16、上述步驟s2中,對數據自動標注后進行數據擴充,使用預訓練模型gpt-2對提供標注的問句進行實體-標簽保留,再使用問句模板形成新的問句,根據保留的實體與標簽對新的問句進行bio標注;使用標注bio標簽的問題問句訓練命名實體識別模型mbert+bilstm+s-attention+crf,對用戶問題進行識別實體。
17、所述命名實體識別模型mbert+bilstm+s-attention+crf包含四個網絡層,包括mbert層、bilstm層(bidirectional?long?short-term?memory,雙向長短期記憶網絡層)、s-attention層(簡化版注意力機制層)和crf層;其中mbert層,用于將輸入的自然語言問句編碼向量化獲得輸入向量序列;bilstm層,用于對輸入向量序列提取語句語義特征;s-attention層,用于對經bilstm層提取語句語義特征后的向量序列再次提取語義特征;crf層,用于結合mbert層、bilstm層和s-attention層提取的特征后,生成最終的標簽序列。
18、上述命名實體識別模型的操作如下所示:
19、對輸入的自然語言問句,經過mbert層被映射成n個向量,n為自然語言問句的長度,輸入序列則表示為x=(x1,x2,…,xn),xn表示輸入句子第n個向量,輸出為h=(h1,h2,…,hi),hi是第i個隱藏層狀態向量。將h作為bilstm層的輸入,得到前向隱藏狀態輸出是bilstm層前向第n個隱藏層狀態向量,后向隱藏狀態輸出是bilstm層后向第n個隱藏層狀態向量,合并前向、后向的輸出得到ht是bilstm層在時間步t上的輸出,它由前向隱藏狀態輸出和后向隱藏狀態輸出組成,并對bilstm層的輸出ht應用dropout得到hdropout=dropout(ht),dropout(ht)通過隨機丟棄一部分神經元的輸出,以防止模型過擬合,從而提高模型的泛化能力,hdropout是應用了dropout后的ht,將輸出hdropout作為s-attention層的輸入;
20、s-attention表示為s-attention(q,k,v),其中q,k,v是查詢、鍵和值矩陣,則q,k,v計算過程為:
21、q=wqhdropout,k=wkhdropout,v=wvhdropout
22、其中,wq是將輸入的特征矩陣hdropout轉換為查詢矩陣q的權重矩陣,wk是將輸入的特征矩陣hdropout轉換為鍵矩陣k的權重矩陣,wv是將輸入的特征矩陣hdropout轉換為值矩陣v的權重矩陣;
23、計算注意力分數為:
24、
25、其中,s是得分矩陣,a是秩近似因子,每個向量維度為dx,dk是縮放因子,在計算注意力分數時用于縮放查詢矩陣q和鍵矩陣k的點積結果,以避免在高維空間中點積值過大,導致softmax函數的梯度消失或梯度爆炸問題;
26、為top-k得分構建一個掩碼矩陣m,對掩碼矩陣m的每一行i,如果列j對應的得分sij是該行的前k個最大值之一,則mij=1,否則本文檔來自技高網...
【技術保護點】
1.一種基于領域知識圖譜STM32位功能問答方法,其特征在于,包括以下步驟:
2.根據權利要求1所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述步驟S1中,STM32領域知識圖譜是根據工具Tabula提取的PDF表格數據和人工整理補充形成的EXCEL表格所構建,其具體構建方式如下所示:
3.根據權利要求2所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述步驟1.1中,使用開源項目Tabula對ST官方提供的寄存器相關說明手冊PDF版本進行表格信息提取,表格信息包括寄存器具體位的英文中文名稱,以及位的具體解釋,對提取的表格數據進行數據清理,將提取的數據按照一定的規則填入EXCEL表格中構建知識圖譜,并人工補充寄存器地址信息;
4.根據權利要求1所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述步驟S2中,命名實體識別模型中用戶問句的主要數據來源包括網站中用戶提出的問題問句以及根據模板嵌入實體形成的問句;
5.根據權利要求4所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所
6.根據權利要求5所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述命名實體識別模型mBERT+BILSTM+S-Attention+CRF包含四個網絡層,包括mBERT層、BILSTM層、S-Attention層和CRF層;其中mBERT層,用于將輸入的自然語言問句編碼向量化獲得輸入向量序列;BILSTM層,用于對輸入向量序列提取語句語義特征;S-Attention層,用于對經BILSTM層提取語句語義特征后的向量序列再次提取語義特征;CRF層,用于結合mBERT層、BILSTM層和S-Attention層提取的特征后,生成最終的標簽序列。
7.根據權利要求6所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述命名實體識別模型的操作如下所示:
8.根據權利要求1所述一種基于領域知識圖譜STM32位功能問答方法,其特征在于,所述步驟S3中,實體鏈接使用Python語句與構建的領域知識圖譜進行鏈接,識別出用戶問句中的實體后鏈接知識圖譜,使用Cypher語言查詢知識圖譜,查找到目標節點、目標屬性及目標關系后找到相關節點和相關節點的屬性,找到問題的答案返回給用戶。
9.基于權利要求1至7任一項所述方法的問答系統,其特征在于,包括:
...【技術特征摘要】
1.一種基于領域知識圖譜stm32位功能問答方法,其特征在于,包括以下步驟:
2.根據權利要求1所述一種基于領域知識圖譜stm32位功能問答方法,其特征在于,所述步驟s1中,stm32領域知識圖譜是根據工具tabula提取的pdf表格數據和人工整理補充形成的excel表格所構建,其具體構建方式如下所示:
3.根據權利要求2所述一種基于領域知識圖譜stm32位功能問答方法,其特征在于,所述步驟1.1中,使用開源項目tabula對st官方提供的寄存器相關說明手冊pdf版本進行表格信息提取,表格信息包括寄存器具體位的英文中文名稱,以及位的具體解釋,對提取的表格數據進行數據清理,將提取的數據按照一定的規則填入excel表格中構建知識圖譜,并人工補充寄存器地址信息;
4.根據權利要求1所述一種基于領域知識圖譜stm32位功能問答方法,其特征在于,所述步驟s2中,命名實體識別模型中用戶問句的主要數據來源包括網站中用戶提出的問題問句以及根據模板嵌入實體形成的問句;
5.根據權利要求4所述一種基于領域知識圖譜stm32位功能問答方法,其特征在于,所述步驟s2中,對數據自動標注外進行數據擴充,使用預訓練模型gpt-2對提供標注的問句進行實體-標簽保留,再使用問句模板形成新的問句,根據保留的實體與標簽對新的問句進行bio標注;使用標注bio標簽的問題問句訓練命名實體...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。