System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 加勒比无码一区二区三区,免费无码又黄又爽又刺激,免费无码精品黄AV电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    信息獲取方法、裝置及電子設備制造方法及圖紙

    技術編號:44528914 閱讀:3 留言:0更新日期:2025-03-07 13:19
    本申請實施例提供了一種信息獲取方法、裝置及電子設備,涉及計算機技術領域。信息獲取方法包括:獲取第一網頁的網頁地址;采集所述第一網頁的網頁地址對應的第一原始網頁信息;根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息。本申請可以提升對多變的網頁結構的適應能力,提高網頁信息提取效率。

    【技術實現步驟摘要】

    本專利技術涉及計算機,特別是涉及一種信息獲取方法、裝置及電子設備


    技術介紹

    1、隨著互聯網技術的發展,各種信息網頁日益增多,網頁內容也呈海量增長。因而,如何從海量內容中有效提取所需的網頁信息,成為當前亟待解決的問題。

    2、目前,常采用網頁爬蟲提取網頁信息。網絡爬蟲是一種按照一定規則,自動抓取網頁信息的程序或者腳本。其中,網頁爬蟲依賴諸如層疊樣式表(cascading?style?sheets,css)選擇器、xpath選擇器等固定的元素選擇器,用以篩選網頁中固定的幾個頁面元素,從而獲取頁面元素對應的網頁信息,實現網頁信息的提取。xpath為一種可擴展標記語言(extensible?markup?language,xml)路徑語言(xmlpathlanguage)。

    3、然而,隨著網頁搭建技術的發展,網頁結構變化頻率。目前的網頁提取方式因依賴固定的元素選擇器,而難以適應于多變的網頁結構,導致網頁信息提取效率較低。


    技術實現思路

    1、本申請實施例的目的在于提供一種信息獲取方法、裝置及電子設備,在一定程度上解決了目前網頁信息提取效率較低的問題。具體技術方案如下:

    2、在本專利技術實施的第一方面,首先提供了一種信息獲取方法,所述方法包括:

    3、獲取第一網頁的網頁地址;

    4、采集所述第一網頁的網頁地址對應的第一原始網頁信息;

    5、根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息,所述第二網頁為與所述第一網頁具有相同網頁結構的網頁。

    6、在本專利技術實施的第二方面,還提供了一種信息獲取裝置,所述裝置包括:

    7、獲取模塊,用于獲取第一網頁的網頁地址;

    8、采集模塊,用于采集所述第一網頁的網頁地址對應的第一原始網頁信息;

    9、提取模塊,用于根據信息提取規則,從所述第一原始網頁信息中提取第一網頁信息,所述信息提取規則是通過大語言模型,根據內容描述信息和第二網頁的第二原始網頁信息生成的數據,所述內容描述信息指示從網頁所需獲取的網頁信息,所述第二網頁為與所述第一網頁具有相同網頁結構的網頁。

    10、在本專利技術實施的第三方面,還提供了一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;

    11、存儲器,用于存放計算機程序;

    12、處理器,用于執行存儲器上所存放的程序時,實現上述第一方面任一所述的方法步驟。

    13、在本專利技術實施的第四方面,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執行上述第一方面任一所述的信息獲取方法。

    14、在本專利技術實施的第五方面,還提供了一種計算機程序產品,包括計算機程序/指令,所述計算機程序/指令被處理器執行時實現上述第一方面任一所述的方法

    15、本申請實施例提供的信息獲取方法、裝置及電子設備,通過在獲取到第一網頁的網頁地址之后,采集第一網頁的網頁地址對應的第一原始網頁信息,進而根據信息提取規則,從第一原始網頁信息中提取第一網頁信息,實現所需的網頁信息的提取。其中,第一網頁的信息提取規則是通過大語言模型,根據內容描述信息以及,與第一網頁具有相同網頁結構的第二網頁的第二原始網頁信息生成的。該技術方案中,由于可以利用大語言模型對相同網頁結構的一類網頁,生成用于提取內容描述信息指示的網頁信息的信息提取規則,從而利用該信息提取規則實現對具有相同網頁結構的一類網頁中內容描述信息指示的網頁信息的提取。因此,相較于相關技術,本申請的網頁信息提取方式擺脫了受固定的元素選擇器限定的網頁提取規則,而是針對不同網頁結構的網頁使用更有網頁結構針對性的信息提取規則,提升了對多變的網頁結構的適應能力,提高網頁信息提取效率。

    本文檔來自技高網...

    【技術保護點】

    1.一種信息獲取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:

    3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:

    5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:

    6.根據權利要求1所述的方法,其特征在于,所述信息提取規則是周期性地通過大語言模型,根據所述內容描述信息,以及與所述第一網頁具有相同網頁結構的網頁的原始網頁信息生成的數據。

    7.一種信息獲取裝置,其特征在于,所述裝置包括:

    8.一種電子設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;

    >9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1至6中任一所述的方法。

    10.一種計算機程序產品,包括計算機程序/指令,其特征在于,所述計算機程序/指令被處理器執行時實現權利要求1至6任一所述的方法。

    ...

    【技術特征摘要】

    1.一種信息獲取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,在所述獲取第一網頁的網頁地址之前,所述方法還包括:

    3.根據權利要求2所述的方法,其特征在于,所述將第一指示信息、所述內容描述信息和所述第二原始網頁信息輸入所述大語言模型得到第二網頁信息,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述將第二指示信息、所述第二網頁信息和所述第二原始網頁信息輸入所述大語言模型得到所述信息提取規則,包括:

    5.根據權利要求1所述的方法,其特征在于,所述采集所述第一網頁的網頁地址對應的第一原始網頁信息,包括:

    6.根據權利要求1所述的方...

    【專利技術屬性】
    技術研發人員:盛懌寒
    申請(專利權)人:北京奇藝世紀科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 妖精色AV无码国产在线看| 久久久亚洲精品无码| 人妻无码中文久久久久专区| 久久久久久国产精品无码超碰 | 熟妇人妻中文字幕无码老熟妇| 无码av免费一区二区三区试看| 在线观看无码AV网站永久免费| 成人无码视频97免费| 久久亚洲AV成人无码国产最大| 国产成人无码久久久精品一 | 在线观看片免费人成视频无码| 精品一区二区三区无码免费视频| 久久精品无码一区二区三区不卡| 丰满熟妇人妻Av无码区| 亚洲一级Av无码毛片久久精品| 亚洲av午夜精品无码专区| 亚洲爆乳精品无码一区二区三区| 亚洲高清无码综合性爱视频| 亚洲爆乳无码专区www| 无码人妻精品一区二区| 久久久精品人妻无码专区不卡| 久久久国产精品无码一区二区三区 | 无码人妻一区二区三区免费n鬼沢| 性虎精品无码AV导航| 亚洲av日韩av无码av| 日韩人妻无码精品一专区| 中文字幕丰满伦子无码| 日韩视频无码日韩视频又2021| 人妻少妇看A偷人无码精品| 亚洲无码一区二区三区| 无码人妻丰满熟妇区BBBBXXXX| 无码人妻精品一区二区三区久久 | 亚洲人成人无码网www电影首页 | 无码AV中文字幕久久专区| 中文国产成人精品久久亚洲精品AⅤ无码精品| 少妇人妻偷人精品无码AV| 亚洲爆乳大丰满无码专区| 色综合久久久无码中文字幕| 国产精品无码久久综合网| 国产精品无码亚洲一区二区三区| 精品无码久久久久久久久|