System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 色综合热无码热国产,亚洲AV无码AV日韩AV网站,亚洲精品无码av天堂
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于圖文數據的標簽挖掘方法、系統、設備及存儲介質技術方案

    技術編號:42004651 閱讀:13 留言:0更新日期:2024-07-12 12:26
    本公開提供了基于圖文數據的標簽挖掘方法、系統、設備及存儲介質,其中方法包括:獲取圖文數據對應的候選圖片集以及候選詞匯集;基于預先訓練得到的關聯評價模型,獲取每個圖文對象對應的關聯評價閾值;根據關聯評價閾值,從候選圖片集以及候選詞匯集中獲取若干的詞圖匹配對,每個詞圖匹配對中的候選圖片與候選詞匯的關聯度大于關聯評價閾值;統計每個圖文對象中候選詞匯在詞圖匹配對中的出現次數以作為關鍵詞曝光頻次;選取關鍵詞曝光頻次大于預設閾值的候選詞匯作為挖掘標簽。本公開技術方案,能夠協助內容平臺,從獲取的海量圖文數據中高效精準地挖掘垂域場景對應的主題化標簽,能夠提升內容平臺的分類管理和內容推薦效率,具有可推廣價值。

    【技術實現步驟摘要】

    所屬的技術人員能夠理解,本公開的各個方面可以實現為系統、方法或程序產品。因此,本公開的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“平臺”。具體的,圖6根據本公開實施例,示出了一種基于圖文數據的標簽挖掘設備的結構示意圖。下面參照圖6來描述根據本公開的這種實施方式的電子設備600。圖6顯示的電子設備600僅僅是一個示例,不應對本公開實施例的功能和使用范圍帶來任何限制。如圖6所示,電子設備600以通用計算設備的形式表現。電子設備600的組件可以包括但不限于:至少一個處理單元610、至少一個存儲單元620、連接不同平臺組件(包括存儲單元620和處理單元610)的總線630、顯示單元640等。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元610執行,使得處理單元610執行根據本公開各種示例性實施方式的步驟。例如,處理單元610可以執行如圖1中所示的基于圖文數據的標簽挖掘方法的相關步驟。存儲單元620可以包括易失性存儲單元形式的可讀介質,例如隨機存取存儲單元(ram)6201和/或高速緩存存儲單元6202,還可以進一步包括只讀存儲單元(rom)6203。存儲單元620還可以包括具有一組(至少一個)程序模塊6205的程序/實用工具6204,這樣的程序模塊6205包括但不限于:操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現??偩€630可以為表示幾類總線結構中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結構中的任一總線結構的局域總線。電子設備600也可以與一個或多個外部設備700(例如鍵盤、指向設備、藍牙設備等)通信,還可與一個或者多個使得用戶能與該電子設備600交互的設備通信,和/或與使得該電子設備600能與一個或多個其它計算設備進行通信的任何設備(例如路由器、調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口650進行。并且,電子設備600還可以通過網絡適配器660與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。網絡適配器660可以通過總線630與電子設備600的其它模塊通信。應當明白,盡管圖中未示出,可以結合電子設備600使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、raid系統、磁帶驅動器以及數據備份存儲平臺等。本公開實施例還提供一種計算機可讀存儲介質,用于存儲程序,程序被執行時實現的基于圖文數據的標簽挖掘方法的步驟。在一些可能的實施方式中,本公開的各個方面還可以實現為一種程序產品的形式,其包括程序代碼,當程序產品在終端設備上運行時,程序代碼用于使終端設備執行本說明書上述基于圖文數據的標簽挖掘方法部分中描述的根據本公開各種示例性實施方式的步驟。具體的,圖7根據本公開實施例,示出了一種計算機可讀存儲介質的結構示意圖。如圖7所示,描述了根據本公開的實施方式的用于實現上述方法的程序產品800,其可以采用便攜式緊湊盤只讀存儲器(cd-rom)并包括程序代碼,并可以在終端設備,例如個人電腦上運行。然而,本公開的程序產品不限于此,在本文件中,可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。程序產品可以采用一個或多個可讀介質的任一組合??勺x介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以為但不限于電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任一以上的組合??勺x存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任一合適的組合。計算機可讀存儲介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了可讀程序代碼。這種傳播的數據信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任一合適的組合。可讀存儲介質還可以是可讀存儲介質以外的任何可讀介質,該可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序??勺x存儲介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任一合適的組合??梢砸砸环N或多種程序設計語言的任一組合來編寫用于執行本公開操作的程序代碼,程序設計語言包括面向對象的程序設計語言—諸如java、c++等,還包括常規的過程式程序設計語言—諸如“c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執行、部分地在用戶設備上執行、作為一個獨立的軟件包執行、部分在用戶計算設備上部分在遠程計算設備上執行、或者完全在遠程計算設備或服務器上執行。在涉及遠程計算設備的情形中,遠程計算設備可以通過任一種類的網絡,包括局域網(lan)或廣域網(wan),連接到用戶計算設備,或者,可以連接到外部計算設備(例如利用因特網服務提供商來通過因特網連接)。綜上所述,通過本公開提供的技術方案,能夠協助內容平臺,從獲取的海量圖文數據中高效精準地挖掘垂域場景對應的主題化標簽,特別適用于旅拍筆記或是旅拍文章實時自動化分析以及場景標簽挖掘,能夠有效應用于日常旅拍文章統計分析、高熱詞匯自動挖掘,圖片自動化打標、圖文檢索等諸多實際應用場景,大大提升了內容平臺基于圖文數據的分類管理和內容推薦效率,具有可推廣價值。以上內容是結合具體的優選實施方式對本公開所作的進一步詳細說明,不能認定本公開的具體實施只局限于這些說明。對于本公開所屬的普通技術人員來說,在不脫離本公開構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本公開的保護范圍。


    技術介紹

    1、ugc(user?generated?content,用戶生成內容),是指通過互聯網、社交媒體等途徑,由普通用戶自主創作并發布的各種形式的圖文內容,例如微博圖文內容、小紅書圖文內容、或者評論他人或者商品、商店、飯店的各種圖文內容等。這些內容通常具有多樣性、實時性和時效性等特點。

    2、內容平臺在對這些圖文數據進行分類管理和內容推薦的過程中,往往會對這些圖文數據內容通過標簽進行劃分和推薦。目前比較常見的方案是先通過機器學習分類器自動對用戶生產的內容中的圖像或者文本進行分類,打上初始標簽,然后再通過人工進行核查和修正。然而隨著圖文數據的新增量與日俱增,初始標簽所包含的標簽內容可能無法滿足海量圖文數據的新增需求。


    技術實現思路

    1、針對現有技術中的問題,本公開的目的在于提供一種基于圖文數據的標簽挖掘方法、系統、設備及存儲介質,具體的,本公開的第一方面提供了一種基于圖文數據的標簽挖掘方法,具體可以包括如下步驟:

    2、獲取圖文數據集,圖文數據集包括若干同時包含有圖片內容組成和文字內容組本文檔來自技高網...

    【技術保護點】

    1.一種基于圖文數據的標簽挖掘方法,其特征在于,包括如下步驟:

    2.如權利要求1所述的基于圖文數據的標簽挖掘方法,其特征在于,所述圖文對象包括旅拍文章,所述旅拍文章包括至少一張圖片;

    3.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選圖片集的過程中,包括如下步驟;

    4.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選詞匯集的過程中,包括如下步驟;

    5.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述關聯評價模型包括多模態圖文理解模型;

    6.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述獲取每個所述圖文對象對應的關聯評價閾值,包括如下步驟:

    7.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取若干的所述詞圖匹配對的過程中,包括如下步驟:

    8.一種基于圖文數據的標簽挖掘系統,用于實現權利要求1至7中任意一項所述的基于圖文數據的標簽挖掘方法,其特征在于,包括:

    9.一種基于圖文數據的標簽挖掘設備,其特征在于,包括:

    10.一種計算機可讀存儲介質,用于存儲程序,其特征在于,所述程序被處理器執行時實現權利要求1至7任意一項所述的基于圖文數據的標簽挖掘方法的步驟。

    ...

    【技術特征摘要】

    1.一種基于圖文數據的標簽挖掘方法,其特征在于,包括如下步驟:

    2.如權利要求1所述的基于圖文數據的標簽挖掘方法,其特征在于,所述圖文對象包括旅拍文章,所述旅拍文章包括至少一張圖片;

    3.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選圖片集的過程中,包括如下步驟;

    4.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,在獲取所述候選詞匯集的過程中,包括如下步驟;

    5.如權利要求2所述的基于圖文數據的標簽挖掘方法,其特征在于,所述關聯評價模型包括多模態圖文理解模型;

    6.如權利要求2所述的...

    【專利技術屬性】
    技術研發人員:呂心鉍,成丹妮,羅超王清,
    申請(專利權)人:攜程旅游網絡技術上海有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产综合无码一区二区三区| 免费无码婬片aaa直播表情| 无码久久精品国产亚洲Av影片| 久久亚洲AV无码精品色午夜麻豆| 无码人妻久久一区二区三区免费| 少妇极品熟妇人妻无码| 亚洲精品无码成人AAA片| 无码国产精品一区二区高潮| 亚洲AV成人无码久久精品老人 | 日韩人妻无码一区二区三区久久99 | 国产亚洲精品a在线无码| 亚洲AV无码一区二区三区性色| 日韩精品无码一区二区视频| 日韩免费a级毛片无码a∨| 日韩欧精品无码视频无删节| 人妻无码久久中文字幕专区| 亚洲AV无码一区二区大桥未久 | 日韩av无码一区二区三区| 亚洲精品无码你懂的网站| 亚洲AV成人无码网天堂| 久久久久无码精品国产不卡| 国产精品无码无在线观看| 久久国产精品无码网站| 无码毛片一区二区三区中文字幕 | 无码精品不卡一区二区三区| 久久AV无码精品人妻糸列| 亚洲AV无码成人专区片在线观看 | 国产精品无码午夜福利| 久久久久亚洲AV无码专区桃色 | 麻豆精品无码国产在线果冻| 久久精品国产亚洲AV无码麻豆| 亚洲精品无码专区在线在线播放| YY111111少妇无码理论片| 国产日韩AV免费无码一区二区三区| 精品人妻无码一区二区色欲产成人| 亚洲中文字幕无码av永久| 色国产色无码色欧美色在线| 人妻少妇看A偷人无码精品| 大胆日本无码裸体日本动漫| 在线A级毛片无码免费真人| 免费无码不卡视频在线观看|