System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
所屬的技術人員能夠理解,本公開的各個方面可以實現為系統、方法或程序產品。因此,本公開的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“平臺”。具體的,圖6根據本公開實施例,示出了一種基于圖文數據的標簽挖掘設備的結構示意圖。下面參照圖6來描述根據本公開的這種實施方式的電子設備600。圖6顯示的電子設備600僅僅是一個示例,不應對本公開實施例的功能和使用范圍帶來任何限制。如圖6所示,電子設備600以通用計算設備的形式表現。電子設備600的組件可以包括但不限于:至少一個處理單元610、至少一個存儲單元620、連接不同平臺組件(包括存儲單元620和處理單元610)的總線630、顯示單元640等。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元610執行,使得處理單元610執行根據本公開各種示例性實施方式的步驟。例如,處理單元610可以執行如圖1中所示的基于圖文數據的標簽挖掘方法的相關步驟。存儲單元620可以包括易失性存儲單元形式的可讀介質,例如隨機存取存儲單元(ram)6201和/或高速緩存存儲單元6202,還可以進一步包括只讀存儲單元(rom)6203。存儲單元620還可以包括具有一組(至少一個)程序模塊6205的程序/實用工具6204,這樣的程序模塊6205包括但不限于:操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現??偩€630可以為表示幾類總線結構中的一種或多種,包括存儲
技術介紹
1、ugc(user?generated?content,用戶生成內容),是指通過互聯網、社交媒體等途徑,由普通用戶自主創作并發布的各種形式的圖文內容,例如微博圖文內容、小紅書圖文內容、或者評論他人或者商品、商店、飯店的各種圖文內容等。這些內容通常具有多樣性、實時性和時效性等特點。
2、內容平臺在對這些圖文數據進行分類管理和內容推薦的過程中,往往會對這些圖文數據內容通過標簽進行劃分和推薦。目前比較常見的方案是先通過機器學習分類器自動對用戶生產的內容中的圖像或者文本進行分類,打上初始標簽,然后再通過人工進行核查和修正。然而隨著圖文數據的新增量與日俱增,初始標簽所包含的標簽內容可能無法滿足海量圖文數據的新增需求。
技術實現思路
1、針對現有技術中的問題,本公開的目的在于提供一種基于圖文數據的標簽挖掘方法、系統、設備及存儲介質,具體的,本公開的第一方面提供了一種基于圖文數據的標簽挖掘方法,具體可以包括如下步驟:
2、獲取圖文數據集,圖文數據集包括若干同時包含有圖片內容組成和文字內容組本文檔來自技高網...
【技術保護點】
1.一種基于圖文數據的標簽挖掘方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于圖文數據的標簽挖掘方法,其特征在于,所述圖文對象包括旅拍文章,所述旅拍文章包括至少一張圖片;
3.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選圖片集的過程中,包括如下步驟;
4.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選詞匯集的過程中,包括如下步驟;
5.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述關聯評價模型包括多模態圖文理解模型;
6.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述獲取每個所述圖文對象對應的關聯評價閾值,包括如下步驟:
7.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取若干的所述詞圖匹配對的過程中,包括如下步驟:
8.一種基于圖文數據的標簽挖掘系統,用于實現權利要求1至7中任意一項所述的基于圖文數據的標簽挖掘方法,其特征在于,包括:
9.一種基于圖文數據的標簽挖掘設備,
10.一種計算機可讀存儲介質,用于存儲程序,其特征在于,所述程序被處理器執行時實現權利要求1至7任意一項所述的基于圖文數據的標簽挖掘方法的步驟。
...【技術特征摘要】
1.一種基于圖文數據的標簽挖掘方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于圖文數據的標簽挖掘方法,其特征在于,所述圖文對象包括旅拍文章,所述旅拍文章包括至少一張圖片;
3.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選圖片集的過程中,包括如下步驟;
4.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選詞匯集的過程中,包括如下步驟;
5.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述關聯評價模型包括多模態圖文理解模型;
6.如權利要求2所述的...
【專利技術屬性】
技術研發人員:呂心鉍,成丹妮,羅超,王清,
申請(專利權)人:攜程旅游網絡技術上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。