本發明專利技術公開了一種廣告文案的特征提取方法及裝置,該方法包括:確定多種特征類型對應的多個預設文本片段;確定目標廣告文案;所述目標廣告文案中包括多個文本片段;將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段。可見,本發明專利技術能夠根據多種特征類型對應的預設文本片段對目標廣告文案進行匹配,以確定出廣告文案中與不同特征類型對應的文本片段,從而能夠提高對廣告文案的特征信息提取的精確性,并可以為后續的廣告文案特征信息的識別或生成提供精確的數據基礎。提供精確的數據基礎。提供精確的數據基礎。
【技術實現步驟摘要】
廣告文案的特征提取方法及裝置
[0001]本專利技術涉及自然語言處理
,尤其涉及一種廣告文案的特征提取方法及裝置。
技術介紹
[0002]隨著互聯網技術的發展,網絡廣告的形式也越來越復雜和多樣化,為了提高廣告內容生成的效率,現有技術開始將自然語言處理技術和神經網絡技術引入自動生成廣告的算法領域。但現有技術在確定用于生成廣告文案的模板時,一般僅由人工挑選出具備標志性的廣告文案形式,并沒有考慮到廣告文案自身的相關性,且人工的方式也存在效率低,精確度差的問題??梢?,現有技術存在缺陷,亟待解決。
技術實現思路
[0003]本專利技術所要解決的技術問題在于,提供一種廣告文案的特征提取確定方法及裝置,能夠提高對廣告文案的特征信息提取的精確性,并可以為后續的廣告文案特征信息的識別或生成提供精確的數據基礎。
[0004]為了解決上述技術問題,本專利技術第一方面公開了一種廣告文案的特征提取方法,所述方法包括:
[0005]確定多種特征類型對應的多個預設文本片段;
[0006]確定目標廣告文案;所述目標廣告文案中包括多個文本片段;
[0007]將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段。
[0008]作為一種可選的實施方式,在本專利技術第一方面中,所述特征類型包括宣傳對象品類、宣傳對象成分、宣傳對象功效、宣傳對象品牌和宣傳營銷用語中的至少一種。
[0009]作為一種可選的實施方式,在本專利技術第一方面中,所述將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段,包括:
[0010]確定每一所述預設文本片段對應的預設文本向量;
[0011]從所述目標廣告文案中的所有所述文本片段中確定出匹配文本片段,確定所述匹配文本片段的匹配文本向量;
[0012]根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段;
[0013]將所述匹配文本片段對應的特征類型確定為所述目標預設文本片段所對應的特征類型。
[0014]作為一種可選的實施方式,在本專利技術第一方面中,所述從所述目標廣告文案中的所有所述文本片段中確定出匹配文本片段,包括:
[0015]根據所述多個預設文本片段,以及詞性標注規則,確定詞性組合規則;所述詞性組
合規則用于表示所述多個預設文本片段中的文本的詞性組合規律;
[0016]將所述目標廣告文案中的所有所述文本片段中符合所述詞性組合規則的文本片段,確定為匹配文本片段。
[0017]作為一種可選的實施方式,在本專利技術第一方面中,所述根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段,包括:
[0018]基于聚類算法,對所有所述預設文本向量進行聚類計算,以得到多個預設文本向量集合;
[0019]根據每一所述預設文本向量集合中的所有預設文本向量,確定每一所述預設文本向量集合對應的集合向量;
[0020]計算所述匹配文本向量與任一所述預設文本向量集合對應的集合向量之間的相似度信息,并判斷該相似度信息是否大于第一相似度閾值;
[0021]若判斷結果為是,計算所述匹配文本向量與該預設文本向量集合中的所有所述預設文本向量之間的相似度信息;
[0022]將該預設文本向量集合中與所述匹配文本向量之間的相似度信息最高,和/或,高于第二相似度閾值的所述預設文本向量所對應的所述預設文本片段,確定為目標預設文本片段。
[0023]作為一種可選的實施方式,在本專利技術第一方面中,所述相似度信息包括余弦相似度信息、歐式距離相似度信息、Jaccard距離相似度信息、編輯距離相似度信息、切比雪夫距離相似度信息、海明距離相似度信息、馬氏距離相似度信息、曼哈頓距離相似度信息和閔科夫斯基距離相似度信息中的至少一種。
[0024]作為一種可選的實施方式,在本專利技術第一方面中,所述根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段之前,所述方法還包括:
[0025]將所述目標廣告文案中與所述多個預設文本片段進行字符匹配,以得到所述目標廣告文案中的與任一所述預設文本片段相同的相同文本片段;
[0026]計算所有所述相同文本片段在所述目標廣告文案中的占比信息,并判斷所述占比信息是否低于占比閾值;
[0027]若判斷結果為是,執行所述根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段的步驟;
[0028]以及,所述方法還包括:
[0029]將所述相同文本片段確定為所述匹配文本片段,并將所述相同文本片段的特征類型確定為對應的所述預設文本片段對應的所述特征類型。
[0030]作為一種可選的實施方式,在本專利技術第一方面中,所述方法還包括:
[0031]確定每一所述特征類型對應的黑名單文本數據;
[0032]對所述目標廣告文案中的對應于任一所述特征類型的所有匹配文本片段中,屬于該特征類型對應的黑名單文本數據中的匹配文本片段,執行取消特征關聯操作;所述取消特征關聯操作用于將所述匹配文本片段與其對應的特征類型取消關聯。
[0033]本專利技術第二方面公開了一種廣告文案的特征提取裝置,所述裝置包括:
[0034]第一確定模塊,用于確定多種特征類型對應的多個預設文本片段;
[0035]第二確定模塊,用于確定目標廣告文案;所述目標廣告文案中包括多個文本片段;
[0036]匹配模塊,用于將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段。
[0037]作為一種可選的實施方式,在本專利技術第二方面中,所述特征類型包括宣傳對象品類、宣傳對象成分、宣傳對象功效、宣傳對象品牌和宣傳營銷用語中的至少一種。
[0038]作為一種可選的實施方式,在本專利技術第二方面中,所述匹配模塊包括:
[0039]第一確定單元,用于確定每一所述預設文本片段對應的預設文本向量;
[0040]第二確定單元,用于從所述目標廣告文案中的所有所述文本片段中確定出匹配文本片段,確定所述匹配文本片段的匹配文本向量;
[0041]第三確定單元,用于根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段;
[0042]第四確定單元,用于將所述匹配文本片段對應的特征類型確定為所述目標預設文本片段所對應的特征類型。
[0043]作為一種可選的實施方式,在本專利技術第二方面中,所述第二確定單元從所述目標廣本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種廣告文案的特征提取方法,其特征在于,所述方法包括:確定多種特征類型對應的多個預設文本片段;確定目標廣告文案;所述目標廣告文案中包括多個文本片段;將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段。2.根據權利要求1所述的廣告文案的特征提取方法,其特征在于,所述特征類型包括宣傳對象品類、宣傳對象成分、宣傳對象功效、宣傳對象品牌和宣傳營銷用語中的至少一種。3.根據權利要求1所述的廣告文案的特征提取方法,其特征在于,所述將所述目標廣告文案中的多個文本片段與所述多個預設文本片段進行匹配,以得到所述目標廣告文案中的對應于任一所述特征類型的匹配文本片段,包括:確定每一所述預設文本片段對應的預設文本向量;從所述目標廣告文案中的所有所述文本片段中確定出匹配文本片段,確定所述匹配文本片段的匹配文本向量;根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段;將所述匹配文本片段對應的特征類型確定為所述目標預設文本片段所對應的特征類型。4.根據權利要求3所述的廣告文案的特征提取方法,其特征在于,所述從所述目標廣告文案中的所有所述文本片段中確定出匹配文本片段,包括:根據所述多個預設文本片段,以及詞性標注規則,確定詞性組合規則;所述詞性組合規則用于表示所述多個預設文本片段中的文本的詞性組合規律;將所述目標廣告文案中的所有所述文本片段中符合所述詞性組合規則的文本片段,確定為匹配文本片段。5.根據權利要求3所述的廣告文案的特征提取方法,其特征在于,所述根據所述匹配文本向量與所述預設文本向量之間的相似度信息,確定所有所述預設文本片段中與所述匹配文本片段相匹配的目標預設文本片段,包括:基于聚類算法,對所有所述預設文本向量進行聚類計算,以得到多個預設文本向量集合;根據每一所述預設文本向量集合中的所有預設文本向量,確定每一所述預設文本向量集合對應的集合向量;計算所述匹配文本向量與任一所述預設文本向量集合對應的集合向量之間的相似度信息,并判斷該相似度信息是否大于第一相似度閾值;若判斷結果為是,計算所述匹配文本向量與該預設文本向量集合中的所有所述預設文本向量之間的相似度信息;將該預設文本向量集合中與所述匹配文本向量之間的相似度信息最高,和/或,高于第二相似度閾值的所述預設文本向量所對應...
【專利技術屬性】
技術研發人員:黃于晏,王秋文,孔曉晴,陳瑩瑩,
申請(專利權)人:有米科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。