System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及網絡安全,尤其涉及一種網頁文件解析方法、裝置、設備和存儲介質。
技術介紹
1、相關技術中,當客戶端請求企業內部服務器中的網絡資源時,服務器會將網絡資源攜帶在網頁文件中發送至安全代理設備,由安全代理設備對網頁文件進行相關處理再轉發給客戶端,這樣可以屏蔽客戶端對服務器的直接訪問,保證了服務器的安全性。在安全代理設備對網頁文件進行相關處理之前,首先需要對網頁文件進行解析處理,這樣安全代理設備才能正常地對解析后的網頁文件進行相關處理。而在解析的過程中,只有網頁文件是采用預設編碼格式進行編碼的情況下才能正常地進行解析處理,如果網頁文件未采用預設編碼格式進行編碼則會發生解析失敗的情況,導致安全代理設備后續無法正常對網頁文件進行相關處理,進而阻礙了客戶端的訪問,產生業務不連續的情況。
技術實現思路
1、本專利技術實施例提供一種網頁文件解析方法、裝置、設備和存儲介質,用以實現對網頁文件成功解析,并且實現在較高的處理效率下完成對網頁文件的解析。
2、第一方面,本專利技術實施例提供一種網頁文件解析方法,應用于安全代理設備,該方法包括:
3、接收網頁文件,所述網頁文件中包括網絡資源以及所述網絡資源對應的地址信息;
4、對所述網頁文件進行初次解析處理;
5、若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,對轉換后的網頁文件進行解析處理;
6、對解析后的網頁文件中的所述地址信息進行重寫,以使得重寫后的地址信息指向與所述網絡
7、可選地,在對所述網頁文件進行初次解析處理之后,所述方法還包括:
8、若解析成功,則對解析后的網頁文件中的所述地址信息進行重寫,以使得重寫后的地址信息指向與所述網絡資源對應的安全訪問網頁。
9、可選地,所述對所述網頁文件進行初次解析處理,包括:
10、確定所述網頁文件中包含的至少一個解析單位;
11、按照各個解析單位在所述網頁文件中的順序,依次對所述各個解析單位進行初次解析處理;
12、所述若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,對轉換后的網頁文件進行解析處理,包括:
13、若任一解析單位解析失敗,則將解析失敗的解析單位由原編碼格式轉換為目標編碼格式,對轉換后的解析單位進行解析處理。
14、可選地,所述解析單位包括所述網頁文件整體、單個字符或者單個文件塊。
15、可選地,所述若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,包括:
16、確定解析失敗類型;
17、若所述解析失敗類型為編碼格式錯誤,則將所述網頁文件由原編碼格式轉換為目標編碼格式。
18、可選地,所述目標編碼格式包括寬字節編碼格式和/或特定字符編碼格式,所述特定字符編碼格式包括utf-8字符編碼格式和/或gbk字符編碼格式。
19、可選地,所述解析處理由解析器執行,所述將所述網頁文件由原編碼格式轉換為目標編碼格式,包括:
20、確定所述寬字節編碼格式和所述特定字符編碼格式中所述解析器支持的編碼格式作為目標編碼格式;
21、通過所述解析器,將所述網頁文件由原編碼格式轉換為所述目標編碼格式。
22、第二方面,本專利技術實施例提供一種網頁文件解析裝置,設置于安全代理設備,該裝置包括:
23、接收模塊,用于接收網頁文件,所述網頁文件中包括網絡資源以及所述網絡資源對應的地址信息;
24、解析模塊,用于對所述網頁文件進行初次解析處理;
25、轉換模塊,用于若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,對轉換后的網頁文件進行解析處理;
26、重寫模塊,用于對解析后的網頁文件中的所述地址信息進行重寫,以使得重寫后的地址信息指向與所述網絡資源對應的安全訪問網頁。
27、可選地,所述重寫模塊,還用于:
28、若解析成功,則對解析后的網頁文件中的所述地址信息進行重寫,以使得重寫后的地址信息指向與所述網絡資源對應的安全訪問網頁。
29、可選地,所述解析模塊,用于確定所述網頁文件中包含的至少一個解析單位;按照各個解析單位在所述網頁文件中的順序,依次對所述各個解析單位進行初次解析處理;
30、所述轉換模塊,用于若任一解析單位解析失敗,則將解析失敗的解析單位由原編碼格式轉換為目標編碼格式,對轉換后的解析單位進行解析處理。
31、可選地,所述解析單位包括所述網頁文件整體、單個字符或者單個文件塊。
32、可選地,所述轉換模塊,用于:
33、確定解析失敗類型;
34、若所述解析失敗類型為編碼格式錯誤,則將所述網頁文件由原編碼格式轉換為目標編碼格式。
35、可選地,所述目標編碼格式包括寬字節編碼格式和/或特定字符編碼格式,所述特定字符編碼格式包括utf-8字符編碼格式和/或gbk字符編碼格式。
36、可選地,所述解析處理由解析器執行,所述轉換模塊,用于:
37、確定所述寬字節編碼格式和所述特定字符編碼格式中所述解析器支持的編碼格式作為目標編碼格式;
38、通過所述解析器,將所述網頁文件由原編碼格式轉換為所述目標編碼格式。
39、第三方面,本專利技術實施例提供一種安全代理設備,其中包括處理器和存儲器,其中,所述存儲器上存儲有可執行代碼,當所述可執行代碼被所述處理器執行時,使所述處理器至少可以實現第一方面中的網頁文件解析方法。
40、第四方面,本專利技術實施例提供了一種非暫時性機器可讀存儲介質,所述非暫時性機器可讀存儲介質上存儲有可執行代碼,當所述可執行代碼被安全代理設備的處理器執行時,使所述處理器至少可以實現第一方面中的網頁文件解析方法。
41、采用本專利技術,不管網頁文件采用的是什么類型的編碼格式進行編碼的,都先直接進行初次解析處理,如果發現解析失敗,則再將網頁文件由原編碼格式轉換為目標編碼格式。初次解析處理導致解析失敗而產生的額外的計算開銷要遠遠小于對大量的網頁文件中的所有字符一一進行遍歷產生的整體計算開銷。采用本專利技術,可以在擁有整體較高網頁文件解析效率的情況下實現網頁文件的解析。采用本專利技術,保障了安全代理設備后續能夠正常對網頁文件進行相關處理,避免阻礙客戶端的訪問,保證業務的連續性。
本文檔來自技高網...【技術保護點】
1.一種網頁文件解析方法,其特征在于,應用于安全代理設備,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在對所述網頁文件進行初次解析處理之后,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述對所述網頁文件進行初次解析處理,包括:
4.根據權利要求3所述的方法,其特征在于,所述解析單位包括所述網頁文件整體、單個字符或者單個文件塊。
5.根據權利要求1所述的方法,其特征在于,所述若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,包括:
6.根據權利要求1所述的方法,其特征在于,所述目標編碼格式包括寬字節編碼格式和/或特定字符編碼格式,所述特定字符編碼格式包括utf-8字符編碼格式和/或GBK字符編碼格式。
7.根據權利要求6所述的方法,其特征在于,所述解析處理由解析器執行,所述將所述網頁文件由原編碼格式轉換為目標編碼格式,包括:
8.一種網頁文件解析裝置,其特征在于,設置于安全代理設備,所述裝置包括:
9.一種安全代理設備,其特征在于,包括:存儲器、處
10.一種非暫時性機器可讀存儲介質,其特征在于,所述非暫時性機器可讀存儲介質上存儲有可執行代碼,當所述可執行代碼被安全代理設備的處理器執行時,使所述處理器執行如權利要求1-7中任一項所述的網頁文件解析方法。
...【技術特征摘要】
1.一種網頁文件解析方法,其特征在于,應用于安全代理設備,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在對所述網頁文件進行初次解析處理之后,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述對所述網頁文件進行初次解析處理,包括:
4.根據權利要求3所述的方法,其特征在于,所述解析單位包括所述網頁文件整體、單個字符或者單個文件塊。
5.根據權利要求1所述的方法,其特征在于,所述若解析失敗,則將所述網頁文件由原編碼格式轉換為目標編碼格式,包括:
6.根據權利要求1所述的方法,其特征在于,所述目標編碼格式包括寬字節編碼格式和/或特定字符編碼格式,所述特定字符編碼格式包括utf-8字符編碼格...
【專利技術屬性】
技術研發人員:王子瑜,鄭鳳順,張慶勇,
申請(專利權)人:北京華耀科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。