System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機,特別是涉及一種信息獲取方法、裝置及電子設備。
技術介紹
1、隨著互聯網技術的發展,各種信息網頁日益增多,網頁內容也呈海量增長。因而,如何從海量內容中有效提取所需的網頁信息,成為當前亟待解決的問題。
2、目前,常采用網頁爬蟲提取網頁信息。網絡爬蟲是一種按照一定規則,自動抓取網頁信息的程序或者腳本。其中,網頁爬蟲依賴諸如層疊樣式表(cascading?style?sheets,css)選擇器、xpath選擇器等固定的元素選擇器,用以篩選網頁中固定的幾個頁面元素,從而獲取頁面元素對應的網頁信息,實現網頁信息的提取。xpath為一種可擴展標記語言(extensible?markup?language,xml)路徑語言(xmlpathlanguage)。
3、然而,隨著網頁搭建技術的發展,網頁結構變化頻率。目前的網頁提取方式因依賴固定的元素選擇器,而難以適應于多變的網頁結構,導致網頁信息提取效率較低。
技術實現思路
1、本申請實施例的目的在于提供一種信息獲取方法、裝置及電子設備,在一定程度上解決了目前網頁信息提取效率較低的問題。具體技術方案如下:
2、在本專利技術實施的第一方面,首先提供了一種信息獲取方法,所述方法包括:
3、獲取第一網頁的網頁地址;
4、采集所述第一網頁的網頁地址對應的第一原始網頁信息;
5、根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模
6、在本專利技術實施的第二方面,還提供了一種信息獲取裝置,所述裝置包括:
7、獲取模塊,用于獲取第一網頁的網頁地址;
8、采集模塊,用于采集所述第一網頁的網頁地址對應的第一原始網頁信息;
9、提取模塊,用于根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息,所述第二網頁為與所述第一網頁具有相同網頁結構的網頁。
10、在本專利技術實施的第三方面,還提供了一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
11、存儲器,用于存放計算機程序;
12、處理器,用于執行存儲器上所存放的程序時,實現上述第一方面任一所述的方法步驟。
13、在本專利技術實施的第四方面,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執行上述第一方面任一所述的信息獲取方法。
14、在本專利技術實施的第五方面,還提供了一種計算機程序產品,包括計算機程序/指令,所述計算機程序/指令被處理器執行時實現上述第一方面任一所述的方法
15、本申請實施例提供的信息獲取方法、裝置及電子設備,通過在獲取到第一網頁的網頁地址之后,采集第一網頁的網頁地址對應的第一原始網頁信息,進而根據信息提取規則,從第一原始網頁信息中提取第一網頁信息,實現所需的網頁信息的提取。其中,第一網頁的信息提取規則是通過大語言模型,根據內容描述信息以及,與第一網頁具有相同網頁結構的第二網頁的第二原始網頁信息生成的。該技術方案中,由于可以利用大語言模型對相同網頁結構的一類網頁,生成用于提取內容描述信息指示的網頁信息的信息提取規則,從而利用該信息提取規則實現對具有相同網頁結構的一類網頁中內容描述信息指示的網頁信息的提取。因此,相較于相關技術,本申請的網頁信息提取方式擺脫了受固定的元素選擇器限定的網頁提取規則,而是針對不同網頁結構的網頁使用更有網頁結構針對性的信息提取規則,提升了對多變的網頁結構的適應能力,提高網頁信息提取效率。
本文檔來自技高網...【技術保護點】
1.一種信息獲取方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:
5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:
6.根據權利要求1所述的方法,其特征在于,所述信息提取規則是周期性地通過大語言模型,根據所述內容描述信息,以及與所述第一網頁具有相同網頁結構的網頁的原始網頁信息生成的數據。
7.一種信息獲取裝置,其特征在于,所述裝置包括:
8.一種電子設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
10.一種計算機程序產品,包括計算機程序/指令,其特征在于,所述計算機程序/指令被處理器執行時實現權利要求1至6任一所述的方法。
...【技術特征摘要】
1.一種信息獲取方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:
5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:
6.根據權利要求1所述的方...
【專利技術屬性】
技術研發人員:盛懌寒,
申請(專利權)人:北京奇藝世紀科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。