System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 加勒比无码一区二区三区,免费无码又黄又爽又刺激,免费无码精品黄AV电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    信息獲取方法、裝置及電子設備制造方法及圖紙

    技術編號:44528914 閱讀:3 留言:0更新日期:2025-03-07 13:19
    本申請實施例提供了一種信息獲取方法、裝置及電子設備,涉及計算機技術領域。信息獲取方法包括:獲取第一網頁的網頁地址;采集所述第一網頁的網頁地址對應的第一原始網頁信息;根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息。本申請可以提升對多變的網頁結構的適應能力,提高網頁信息提取效率。

    【技術實現步驟摘要】

    本專利技術涉及計算機,特別是涉及一種信息獲取方法、裝置及電子設備


    技術介紹

    1、隨著互聯網技術的發展,各種信息網頁日益增多,網頁內容也呈海量增長。因而,如何從海量內容中有效提取所需的網頁信息,成為當前亟待解決的問題。

    2、目前,常采用網頁爬蟲提取網頁信息。網絡爬蟲是一種按照一定規則,自動抓取網頁信息的程序或者腳本。其中,網頁爬蟲依賴諸如層疊樣式表(cascading?style?sheets,css)選擇器、xpath選擇器等固定的元素選擇器,用以篩選網頁中固定的幾個頁面元素,從而獲取頁面元素對應的網頁信息,實現網頁信息的提取。xpath為一種可擴展標記語言(extensible?markup?language,xml)路徑語言(xmlpathlanguage)。

    3、然而,隨著網頁搭建技術的發展,網頁結構變化頻率。目前的網頁提取方式因依賴固定的元素選擇器,而難以適應于多變的網頁結構,導致網頁信息提取效率較低。


    技術實現思路

    1、本申請實施例的目的在于提供一種信息獲取方法、裝置及電子設備,在一定程度上解決了目前網頁信息提取效率較低的問題。具體技術方案如下:

    2、在本專利技術實施的第一方面,首先提供了一種信息獲取方法,所述方法包括:

    3、獲取第一網頁的網頁地址;

    4、采集所述第一網頁的網頁地址對應的第一原始網頁信息;

    5、根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息,所述第二網頁為與所述第一網頁具有相同網頁結構的網頁。

    6、在本專利技術實施的第二方面,還提供了一種信息獲取裝置,所述裝置包括:

    7、獲取模塊,用于獲取第一網頁的網頁地址;

    8、采集模塊,用于采集所述第一網頁的網頁地址對應的第一原始網頁信息;

    9、提取模塊,用于根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息,所述第二網頁為與所述第一網頁具有相同網頁結構的網頁。

    10、在本專利技術實施的第三方面,還提供了一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;

    11、存儲器,用于存放計算機程序;

    12、處理器,用于執行存儲器上所存放的程序時,實現上述第一方面任一所述的方法步驟。

    13、在本專利技術實施的第四方面,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執行上述第一方面任一所述的信息獲取方法。

    14、在本專利技術實施的第五方面,還提供了一種計算機程序產品,包括計算機程序/指令,所述計算機程序/指令被處理器執行時實現上述第一方面任一所述的方法

    15、本申請實施例提供的信息獲取方法、裝置及電子設備,通過在獲取到第一網頁的網頁地址之后,采集第一網頁的網頁地址對應的第一原始網頁信息,進而根據信息提取規則,從第一原始網頁信息中提取第一網頁信息,實現所需的網頁信息的提取。其中,第一網頁的信息提取規則是通過大語言模型,根據內容描述信息以及,與第一網頁具有相同網頁結構的第二網頁的第二原始網頁信息生成的。該技術方案中,由于可以利用大語言模型對相同網頁結構的一類網頁,生成用于提取內容描述信息指示的網頁信息的信息提取規則,從而利用該信息提取規則實現對具有相同網頁結構的一類網頁中內容描述信息指示的網頁信息的提取。因此,相較于相關技術,本申請的網頁信息提取方式擺脫了受固定的元素選擇器限定的網頁提取規則,而是針對不同網頁結構的網頁使用更有網頁結構針對性的信息提取規則,提升了對多變的網頁結構的適應能力,提高網頁信息提取效率。

    本文檔來自技高網...

    【技術保護點】

    1.一種信息獲取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:

    3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:

    5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:

    6.根據權利要求1所述的方法,其特征在于,所述信息提取規則是周期性地通過大語言模型,根據所述內容描述信息,以及與所述第一網頁具有相同網頁結構的網頁的原始網頁信息生成的數據。

    7.一種信息獲取裝置,其特征在于,所述裝置包括:

    8.一種電子設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;

    >9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1至6中任一所述的方法。

    10.一種計算機程序產品,包括計算機程序/指令,其特征在于,所述計算機程序/指令被處理器執行時實現權利要求1至6任一所述的方法。

    ...

    【技術特征摘要】

    1.一種信息獲取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:

    3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:

    5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:

    6.根據權利要求1所述的方...

    【專利技術屬性】
    技術研發人員:盛懌寒
    申請(專利權)人:北京奇藝世紀科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本大道无码日韩精品影视_| 内射精品无码中文字幕| 99精品一区二区三区无码吞精| 亚洲AV无码久久久久网站蜜桃 | 亚洲中文字幕无码一区| 永久免费AV无码国产网站| 国产爆乳无码视频在线观看| 日韩精品无码免费视频| 精品无码黑人又粗又大又长| 熟妇人妻无码中文字幕| 无码精品人妻一区二区三区漫画 | 久久国产精品无码网站| 好了av第四综合无码久久| 无码午夜成人1000部免费视频| 亚洲?V无码成人精品区日韩| 久久Av无码精品人妻系列 | 人妻少妇精品无码专区| 无码中文字幕日韩专区视频| 亚洲美日韩Av中文字幕无码久久久妻妇| 日韩精品无码中文字幕一区二区| 精品无人区无码乱码大片国产| 日韩放荡少妇无码视频| AV无码精品一区二区三区| 无码精品国产一区二区三区免费| 久久综合一区二区无码| JAVA性无码HD中文| 亚洲AV无码国产在丝袜线观看| 亚洲?V无码乱码国产精品 | 亚洲最大av无码网址| 无码熟妇人妻av| 国产成人无码精品久久二区三区| 天堂无码久久综合东京热| 亚洲av无码偷拍在线观看| 无码夫の前で人妻を侵犯| 亚洲综合无码无在线观看| 中文无码字幕中文有码字幕| 性生交片免费无码看人| 精品久久久久久无码中文字幕一区| 亚洲国产av高清无码| 亚洲AV无码一区二区大桥未久| 无码无套少妇毛多18PXXXX|