基于自動化抓取技術的LLM數據采集處理方法及系統技術方案

技術編號：44382235 閱讀：3 留言：0更新日期：2025-02-25 09:56

本發明專利技術公開了一種基于自動化抓取技術的LLM數據采集處理方法及系統，涉及人工智能技術領域，該方法包括：分布式節點架構中的每個爬取節點分配數據采集任務；爬取節點基于數據采集任務訪問不同的數據源，以得到采集數據；當爬取節點完成一輪數據采集后，基于采集進度和采集效率調整任務分配；對采集數據進行第一次數據處理，對經過第一次數據處理后的采集數據進行數據質量評估、無效信息去除和文本校正；將來自不同數據源已完成第一次數據處理的采集數據進行整合，得到整合數據，對整合數據進行第二次數據處理，以得到LLM數據，有助于解決現有技術無法高效且高質量地采集、處理用于LLM的各類數據源的數據的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能，特別地涉及一種基于自動化抓取技術的llm數據采集處理方法及系統。

技術介紹

1、隨著人工智能技術的飛速發展，大語言模型（llm）在眾多領域展現出了強大的應用潛力，從智能客服、文本生成到智能輔助寫作等場景，其影響力日益凸顯。然而，llm卓越性能的背后離不開海量高質量數據的支撐，這就促使了高效且精準的數據采集處理方法成為關鍵研究課題。

2、在數據采集方面，傳統的爬取技術在大規模數據采集時，容易遇到網絡擁堵、反爬取機制等問題，導致數據采集效率低下；現有數據采集方法往往局限于特定的數據源或數據類型，導致采集到的數據缺乏多樣性，難以滿足復雜應用的需求；數據抓取策略往往依賴于人工編寫的規則和腳本，缺乏智能化的分析和決策能力，難以適應不斷變化的網頁結構和數據格式。

3、在數據清洗方面，現有的數據清洗方法往往依賴于簡單的規則過濾和正則表達式匹配，難以準確識別并去除所有無效信息，特別是那些嵌入在文本中的廣告、導航鏈接等；對于文本數據中的拼寫錯誤、語法錯誤等問題，現有的校正方法往往缺乏智能化的處理機制，導致校正效果不理想；現有技術往往缺乏系統的數據質量評估方法和指標，導致數據質量難以保證，進而影響后續的分析和建模效果。

4、因此，亟需一種能夠高效且高質量地采集、處理用于llm數據的方法。

技術實現思路

1、有鑒于此，本專利技術提出一種基于自動化抓取技術的llm數據采集處理方法及系統，能夠基于自動化抓取技術構建數據采集任務、利用智能調度算法調整

2、為實現上述目的，本專利技術提供如下技術方案：

3、一種基于自動化抓取技術的llm數據采集處理方法，包括：

4、響應于數據采集請求，構建數據采集任務，為分布式節點架構中的每個爬取節點分配所述數據采集任務；

5、所述爬取節點基于所述數據采集任務訪問不同的數據源，以得到采集數據；

6、當爬取節點完成一輪數據采集后，通過智能調度算法計算每個爬取節點的采集效率和采集進度，基于所述采集進度和采集效率調整任務分配；

7、對所述采集數據進行第一次數據處理，所述第一次數據處理包括數據去重、數據格式統一和數據缺失值處理，對經過第一次數據處理后的采集數據進行數據質量評估、無效信息去除和文本校正；

8、將來自不同數據源已完成第一次數據處理的采集數據進行整合，得到整合數據，對所述整合數據進行第二次數據處理，以得到llm數據，所述第二次數據處理包括數據去重和數據格式統一。

9、在上述技術方案的基礎上，本專利技術還可以做如下改進：

10、可選地，所述響應于數據采集請求，構建數據采集任務，為每個爬取節點分配數據采集任務，包括：

11、為每個數據采集任務配置任務信息，所述任務信息包括數據源地址和采集頻率。

12、可選地，所述基于自動化抓取技術的llm數據采集處理方法，還包括：

13、通過爬取節點采集數據的同時，通過緩存預取技術對訪問頻率超過預設閾值的采集數據進行緩存，以減少重復的數據采集請求。

14、可選地，所述當爬取節點完成一輪數據采集后，通過智能調度算法計算每個爬取節點對應的采集進度和采集效率，包括：

15、通過公式（1）計算采集進度；

16、????????????公式（1）；

17、式中，為采集進度，為實際平均下載速度，為采集開始后經過的時間，為爬取節點負載系數，為正常無負載情況下單個節點的采集速率，為待采集的數據總量大小，為數據源更新頻率；

18、通過公式（2）計算采集效率；

19、?????????公式（2）；

20、式中，為采集效率，為實際網絡帶寬利用率，為平均數據傳輸穩定度，為節點當前活躍連接數，為節點最大并發連接數，為節點內存使用率，為節點cpu使用率，為數據源更新頻率系數。

21、可選地，所述數據去重包括：通過去重算法去除知識數據中重復的數據記錄，以確保數據的唯一性；

22、所述數據格式統一包括：將不同格式的知識數據統一轉換為預設標準格式；

23、所述數據缺失值處理包括：識別所述知識數據中的缺失值，對所述缺失值進行填充處理，以保障數據的完整性與可用性。

24、可選地，所述數據質量評值包括：計算每個采集數據對應的質量評估值，將質量評估值小于預設閾值的采集數據進行過濾或標記；

25、所述無效信息去除和文本校正包括：從過濾或標記后的采集數據中提取文本數據，對所述文本數據進行語義分析，以識別文本數據中的無效信息，去除所述無效信息并進行校正處理。

26、可選地，所述計算每個采集數據對應的質量評估值，包括：

27、通過公式（3）計算質量評估值；

28、???公式（3）；

29、式中，為數據質量評估值，為準確性權重，為數據準確性得分，為完整性權重，為數據完整性得分，為時效性權重，為時效性得分，為一致性權重，為一致性得分。

30、一種基于自動化抓取技術的llm數據采集處理系統，包括：

31、任務分配模塊，用于響應于數據采集請求，構建數據采集任務，為分布式節點架構中的每個爬取節點分配所述數據采集任務；

32、數據采集模塊，用于所述爬取節點基于所述數據采集任務訪問不同的數據源，以得到采集數據；

33、智能調度模塊，用于當爬取節點完成一輪數據采集后，通過智能調度算法計算每個爬取節點的采集效率和采集進度，基于所述采集進度和采集效率調整任務分配；

34、數據質量評估模塊，用于對所述采集數據進行第一次數據處理，所述第一次數據處理包括數據去重、數據格式統一和數據缺失值處理，對經過第一次數據處理后的采集數據進行數據質量評估；

35、無效信息去除與文本校正模塊，用于對經過數據質量評估后的采集數據進行無效信息去除和文本校正；

36、多數據源整合模塊，用于將來自不同數據源已完成第一次數據處理的采集數據進行整合，得到整合數據，用于對所述整合數據進行第二次數據處理，以得到llm數據，所述第二次數據處理包括數據去重和數據格式統一。

37、一種電子設備，包括存儲器、處理器及存儲在存儲器上并在處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現如所述方法的步驟。

38、一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現所述方法的步驟。

39、本專利技術具有如下優點：

40、本專利技術中基于自動化抓取技術的llm數據采集處理方法，精準的任務分配讓每個爬取節點各司其職，避免資源閑置或爭搶，像多領域知識融合的llm構建，不同爬取節點專攻學術、新聞、社交等數據源，極大提升整體啟動效率，縮短數據獲取本文檔來自技高網...

【技術保護點】

1.一種基于自動化抓取技術的LLM數據采集處理方法，其特征在于，包括：

2.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，所述響應于數據采集請求，構建數據采集任務，為每個爬取節點分配數據采集任務，包括：

3.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，所述基于自動化抓取技術的LLM數據采集處理方法，還包括：

4.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，所述當爬取節點完成一輪數據采集后，通過智能調度算法計算每個爬取節點對應的采集進度和采集效率，包括：

5.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，

6.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，

7.根據權利要求1所述的基于自動化抓取技術的LLM數據采集處理方法，其特征在于，所述計算每個采集數據對應的質量評估值，包括：

8.一種基于自動化抓取技術的LLM數據采集處理的系統，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器及存儲在存儲器上并在處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至7中的任一項所述的方法的步驟。

10.一種非暫態計算機可讀介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至7中的任一項所述的方法的步驟。

...

【技術特征摘要】

1.一種基于自動化抓取技術的llm數據采集處理方法，其特征在于，包括：

2.根據權利要求1所述的基于自動化抓取技術的llm數據采集處理方法，其特征在于，所述響應于數據采集請求，構建數據采集任務，為每個爬取節點分配數據采集任務，包括：

3.根據權利要求1所述的基于自動化抓取技術的llm數據采集處理方法，其特征在于，所述基于自動化抓取技術的llm數據采集處理方法，還包括：

4.根據權利要求1所述的基于自動化抓取技術的llm數據采集處理方法，其特征在于，所述當爬取節點完成一輪數據采集后，通過智能調度算法計算每個爬取節點對應的采集進度和采集效率，包括：

5.根據權利要求1所述的基于自動化抓取技術的llm數據采集處理方法，其...

【專利技術屬性】
技術研發人員：錢晶，
申請(專利權)人：北京煉石網絡技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術