一種在線智能互動問答系統的預訓練方法、系統和設備技術方案

技術編號：43861751 閱讀：25 留言：0更新日期：2024-12-31 18:49

本發明專利技術涉及一種在線智能互動問答系統的預訓練方法、系統和設備，包括：數據收集：構建一個多元數據收集機制，采集各大網站平臺的數據，形成數據流；數據預處理：識別和清洗數據流中的廣告內容，去除無關信息；數據清洗：對于數據流中來自不同站點的數據分別貼上對應的標簽，同時去除數據流中質量不好的部分，按標簽的類型進行整合，形成多個數據集；量化分析：對數據集分別進行計算和評估偏差指標，以識別和去除數據集中的不一致的文本；偏見檢測和校對：利用多個數據集訓練分類器，尋找最優的分類閾值并輸出在原始數據集上得到預測結果，以識別和去除可能帶有偏見的文本。本發明專利技術通過精細入微的數據去偏見處理，確保數據分析的公正性和準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及ai智能系統的，具體涉及一種在線智能互動問答系統的預訓練方法、系統和設備。

技術介紹

1、現有的在線智能互動問答系統，也即ai問答系統，能夠通過nlp技術，也就是自然語言處理技術，達到了依存句法分析和語義角色標注、理解用戶問題的結構和意圖的效果。例如當用戶問“蘋果手機的最新型號是什么？”時，系統不僅識別出關鍵詞“蘋果手機”和“最新型號”，還理解詢問的是產品信息。這樣的系統已具備高度的語言理解能力，可準確捕捉用戶需求。同時，現有技術中，利用bert、gpt等預訓練模型，ai問答系統還能夠生成更為自然和準確的回答，這些模型在大量文本上進行預訓練，學習到語言的深層特征，能夠理解問題中每個詞的上下文含義，從而提供更精準的答案。而對于系統的搜索引擎整合，通過搜索引擎技術，能夠訪問互聯網上的海量信息。例如，當用戶詢問某個歷史事件的詳情時，系統可能需要從維基百科等在線資源中提取信息，并結合數據庫中的數據，生成一個全面的回答。此外，在ai問答系統中，還可跟蹤用戶的意圖和對話上下文，提供個性化的建議，其依賴于結構化或半結構化的知識庫來提供準確的回答，也因此，系統需要能夠提供清晰的邏輯和數據支持，并支持多語言和跨文化交互。

2、但是，現有技術中的這種基于互聯網大數據的ai問答系統還是存在一定的缺陷：

3、1、數據依賴性：ai助手依賴大量數據進行學習和預測，數據的質量和多樣性直接影響其性能，如果數據存在偏見或錯誤，ai的預測和決策可能會受到影響；

4、2、信息質量控制：搜索引擎可能返回各種來源的信息，

5、3、深度理解限制：ai可能難以理解復雜或多層面的問題，尤其是那些需要深入分析或批判性思考的問題；

6、4、實時性與依賴性問題：搜索引擎索引的信息可能不是最新的，ai助手可能無法提供最新的數據或事件進展。

技術實現思路

1、為了解決上述現有技術存在的問題，本專利技術目的之一在于提供一種在線智能互動問答系統的預訓練方法，該方法對互聯網大數據進行全面的數據多樣性與深度整合，并能精準地對數據進行去偏見與公正性提升，確保數據的公正性和準確性。本專利技術目的之二在于提供一種在線智能互動問答系統的預訓練系統，該系統主要針對分類器完成上述預訓練方法，同時可結合到在線智能互動問答系統中運行，確保數據分析結果的真實性和客觀性。本專利技術目的之三在于提供一種在線智能互動問答系統的預訓練設備，使該系統能在基于互聯網大數據的ai問答系統應用該方法訓練分類器，以確保ai回答問題的真實性和客觀性。

2、本專利技術所述的一種在線智能互動問答系統的預訓練方法，所述方法應用在基于互聯網大數據的ai問答系統，所述方法包括：

3、數據收集：構建一個多元數據收集機制，采集各大網站平臺的數據，形成數據流；

4、數據預處理：識別和清洗所述數據流中的廣告內容，去除無關信息；

5、數據清洗：對于所述數據流中來自不同站點的數據分別貼上對應的標簽，同時去除所述數據流中質量不好的部分，按所述標簽的類型進行整合，形成多個數據集；

6、量化分析：對所述數據集分別進行計算和評估偏差指標，以識別和去除所述數據集中的不一致的文本；

7、偏見檢測和校對：利用多個所述數據集訓練分類器，尋找最優的分類閾值并輸出在原始的所述數據集上得到預測結果，以識別和去除可能帶有偏見的文本。

8、在其中一個實施例中，所述偏見檢測和校對的方式具體包括：

9、數據集初始化：將多個所述數據集劃分為訓練集和測試集；

10、數據的凈化和配置：利用自然語言處理技術，設定所述訓練集的結構，定義所述訓練集中各所述數據集的正負標簽，明確所述訓練集內受保護的屬性名稱，以及對所述訓練集中的文本賦上特權和非特權的屬性值，并標注對應的所述數據集的特征名稱；

11、分類器的訓練和評估：計算所述訓練集的分類閾值和平均率差異，不斷調整所述訓練集的賦值參數，以使所述分類閾值和所述平均率差異均盡可能小并接近于0；

12、分類器預測：按找到的分類閾值輸出在所述測試集上，得到預測結果。

13、在其中一個實施例中，所述分類器預測的方式具體包括：

14、預測執行：利用訓練好的所述分類器對所述測試集中的每個所述數據集進行預測，生成初步的預測結果；

15、閾值探索：計算和評估各所述分類閾值對不同評價指標的影響；

16、結果展示：詳細展示每個閾值下的結果，識別最優的分類閾值設置。

17、在其中一個實施例中，所述分類閾值的計算方式為：f＝1-abs(d)，其中，f為分類閾值，d為差異影響即不同群體在分類結果上的顯著差異值；

18、所述平均率差異的計算方式為：p＝0.5[(fu-fp)+(tu-tp)]，其中，p為平均率差異，fu為非特權群體中的假正率，fp為特權群體中的假正率，tu為非特權群體中的真正率，tp為特權群體中的真正率。

19、在其中一個實施例中，所述評價指標包括準確率、精確率、召回率、f1值、roc和auc曲線指標。

20、在其中一個實施例中，所述偏差指標包括偏差度量、方差分析和相關性檢驗。

21、在其中一個實施例中，所述采集各大網站平臺的數據的方法包括：根據網站更新頻率和歷史數據變化模式來動態調整采集頻率。

22、本專利技術的一種在線智能互動問答系統的預訓練系統，包括互相連接的人機交互模塊及數據儲存和處理模塊，所述系統還包括依次連接的數據優化模塊和數據去偏見模塊，所述數據去偏見模塊與所述數據儲存和處理模塊相連接，

23、所述數據優化模塊包括：

24、數據收集單元，采集各大網站平臺不同來源的數據；

25、數據整合單元，設置統一的框架整合所述數據收集單元收集的數據，形成數據流；

26、動態處理單元，根據不同網站的更新頻率，調整所述數據收集單元的采集頻率；

27、所述數據去偏見處理模塊包括：

28、數據預處理單元，識別和清洗所述數據整合單元傳輸來的所述數據流中的廣告內容；

29、數據清洗單元，對所述數據預處理單元處理后的數據貼上對應的標簽，同時去除無法識別的內容，按所述標簽的類型進行整合，形成多個數據集；

30、量化分析單元，計算和評估偏差指標，以識別和去除所述數據清洗單元各所述數據集中的不一致的文本；

31、偏見檢測和校對單元，利用所述量化分析單元處理后的多個所述數據集建立模型訓練分類器，通過學習確定最優的分類閾值；

32、分類器，與所述偏見檢測和校對單元互相連接，并與所述量化分析單元相連接，對所述量化分析單元處理后的多個所述數據集分別進行分類，并將預測結果發送至所述數據儲存和處理模塊。

33、本專利技術的一種在線智能互動問答系統的預訓練設備，包括存儲器和處理器，所述存儲器本文檔來自技高網...

【技術保護點】

1.一種在線智能互動問答系統的預訓練方法，其特征在于，所述方法應用在基于互聯網大數據的AI問答系統，所述方法包括：

2.根據權利要求1所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述偏見檢測和校對的方式具體包括：

3.根據權利要求2所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述分類器預測的方式具體包括：

4.根據權利要求3所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述分類閾值的計算方式為：F＝1-abs(d)，其中，F為分類閾值，d為差異影響即不同群體在分類結果上的顯著差異值；

5.根據權利要求4所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述評價指標包括準確率、精確率、召回率、F1值、ROC和AUC曲線指標。

6.根據權利要求5所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述偏差指標包括偏差度量、方差分析和相關性檢驗。

7.根據權利要求6所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述采集各大網站平臺的數據的方法包括：根據網站更新頻率和歷史數據

8.一種在線智能互動問答系統的預訓練系統，包括互相連接的人機交互模塊及數據儲存和處理模塊，其特征在于，所述系統還包括依次連接的數據優化模塊和數據去偏見模塊，所述數據去偏見模塊與所述數據儲存和處理模塊相連接，

9.一種在線智能互動問答系統的預訓練設備，其特征在于，包括存儲器和處理器，所述存儲器和所述處理器之間互相通信連接，所述存儲器中存儲有如權利要求8所述一種在線智能互動問答系統的預訓練系統，所述處理器通過執行所述系統的指令，從而執行如權利要求1-7任意一項所述一種在線智能互動問答系統的預訓練方法。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有如權利要求8所述一種在線智能互動問答系統的預訓練系統，所述系統適于執行如權利要求1-7任意一項所述一種在線智能互動問答系統的預訓練方法。

...

【技術特征摘要】

1.一種在線智能互動問答系統的預訓練方法，其特征在于，所述方法應用在基于互聯網大數據的ai問答系統，所述方法包括：

2.根據權利要求1所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述偏見檢測和校對的方式具體包括：

3.根據權利要求2所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述分類器預測的方式具體包括：

4.根據權利要求3所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述分類閾值的計算方式為：f＝1-abs(d)，其中，f為分類閾值，d為差異影響即不同群體在分類結果上的顯著差異值；

5.根據權利要求4所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述評價指標包括準確率、精確率、召回率、f1值、roc和auc曲線指標。

6.根據權利要求5所述一種在線智能互動問答系統的預訓練方法，其特征在于，所述偏差指標包括偏差度量、方差分析和相關性檢驗。

7.根據權利要求6所述一種在...

【專利技術屬性】
技術研發人員：陳學言，王壘，李文堯，王波，
申請(專利權)人：廣東數源智匯科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術