本發明專利技術實施例公開了一種文本生成方法、裝置、設備和存儲介質。該方法包括:獲取上一時刻生成的第一文本;確定每個第一文本對應的多個第一候選詞,并將每個第一候選詞作為第一文本的后綴,生成多個第一候選文本;對多個第一候選文本進行遍歷組合,確定多個候選文本集合;基于每個第一候選文本中的每個詞,確定每個候選文本集合中的重復詞,并對重復詞對應的詞分數進行懲罰處理,確定重復詞對應的目標分數;基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數,確定每個候選文本集合對應的集合分數;基于集合分數確定目標文本集合,并基于目標文本集合確定當前時刻生成的第二文本,從而提高了生成文本的多樣性。從而提高了生成文本的多樣性。從而提高了生成文本的多樣性。
【技術實現步驟摘要】
一種文本生成方法、裝置、設備和存儲介質
[0001]本專利技術實施例涉及計算機技術,尤其涉及一種文本生成方法、裝置、設備和存儲介質。
技術介紹
[0002]隨著計算機技術的快速發展,往往需要自動生成一些文本,從而滿足不同的業務需求,比如生成的文本可以用于機器學習或者文本翻譯等。
[0003]目前,通常是通過集束搜索方式(beam search)生成文本。集束搜索方式是用于搜索生成的文本序列的條件概率值最大的序列。
[0004]然而,在實現本專利技術過程中,專利技術人發現現有技術中至少存在如下問題:
[0005]現有的集束搜索方式生成的文本相似度非常高,比如生成的兩個文本長句中只有一個詞不同或者文本語義完全相同,從而導致生成的文本多樣性較低。
技術實現思路
[0006]本專利技術實施例提供了一種文本生成方法、裝置、設備和存儲介質,以提高生成文本的多樣性。
[0007]第一方面,本專利技術實施例提供了一種文本生成方法,包括:
[0008]獲取上一時刻生成的預設數量的第一文本;
[0009]確定每個所述第一文本對應的多個第一候選詞,并將每個所述第一候選詞作為第一文本的后綴,生成多個第一候選文本;
[0010]對多個第一候選文本進行遍歷組合,確定多個候選文本集合,其中,每個候選文本集合包括所述預設數量的第一候選文本;
[0011]基于每個第一候選文本中的每個詞,確定每個候選文本集合中重復出現的重復詞,并對所述重復詞對應的詞分數進行懲罰處理,確定所述重復詞對應的目標分數,其中,所述重復詞對應的詞分數用于表征所述重復詞作為文本后綴詞的條件概率值;
[0012]基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數,確定每個候選文本集合對應的集合分數;
[0013]基于所述集合分數,從多個候選文本集合中確定目標文本集合,并基于所述目標文本集合,確定當前時刻生成的預設數量的第二文本。
[0014]第二方面,本專利技術實施例還提供了一種文本生成裝置,包括:
[0015]第一文本獲取模塊,用于獲取上一時刻生成的預設數量的第一文本;
[0016]第一候選文本生成模塊,用于確定每個所述第一文本對應的多個第一候選詞,并將每個所述第一候選詞作為第一文本的后綴,生成多個第一候選文本;
[0017]候選文本集合確定模塊,用于對多個第一候選文本進行遍歷組合,確定多個候選文本集合,其中,每個候選文本集合包括所述預設數量的第一候選文本;
[0018]目標分數確定模塊,用于基于每個第一候選文本中的每個詞,確定每個候選文本
集合中重復出現的重復詞,并對所述重復詞對應的詞分數進行懲罰處理,確定所述重復詞對應的目標分數,其中,所述重復詞對應的詞分數用于表征所述重復詞作為文本后綴詞的條件概率值;
[0019]集合分數確定模塊,用于基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數,確定每個候選文本集合對應的集合分數;
[0020]第二文本確定模塊,用于基于所述集合分數,從多個候選文本集合中確定目標文本集合,并基于所述目標文本集合,確定當前時刻生成的預設數量的第二文本。
[0021]第三方面,本專利技術實施例還提供了一種電子設備,所述電子設備包括:
[0022]一個或多個處理器;
[0023]存儲器,用于存儲一個或多個程序;
[0024]當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如本專利技術任意實施例所提供的文本生成方法。
[0025]第四方面,本專利技術實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如本專利技術任意實施例所提供的文本生成方法。
[0026]上述專利技術中的一個實施例具有如下優點或有益效果:
[0027]通過在當前時間步長內,基于上一時刻生成的預設數量的第一文本生成多個第一候選文本,并對多個第一候選文本進行遍歷組合,獲得多個候選文本集合,對每個候選文本集合中重復出現的重復詞進行詞分數的懲罰處理,并基于懲罰后的目標分數確定每個候選文本集合對應的集合分數,基于集合分數,從多個候選文本集合中確定目標文本集合,并基于目標文本集合確定當前時刻生成的預設數量的第二文本,從而通過對每個候選文本集合中重復出現的重復詞進行詞分數的懲罰處理,可以傾向于生成包含不重復詞的文本,提高了生成文本的多樣性。
附圖說明
[0028]為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0029]圖1是本專利技術一個實施例所提供的一種文本生成方法的流程圖;
[0030]圖2是本專利技術一個實施例所涉及的一種文本生成的示例;
[0031]圖3是本專利技術一個實施例提供的另一種文本生成方法的流程圖;
[0032]圖4是本專利技術一個實施例所涉及的一種第二文本對應的多個第二候選詞的示例;
[0033]圖5是本專利技術一個實施例所涉及的一種第二文本對應的目標第二候選詞的示例;
[0034]圖6是本專利技術一個實施例提供的一種文本生成裝置的結構示意圖;
[0035]圖7是本專利技術一個實施例提供的一種電子設備的結構示意圖。
具體實施方式
[0036]下面結合附圖和實施例對本專利技術作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本專利技術,而非對本專利技術的限定。另外還需要說明的是,為了便
于描述,附圖中僅示出了與本專利技術相關的部分而非全部結構。
[0037]圖1為本專利技術一個實施例所提供的一種文本生成方法的流程圖,本實施例可適用于生成具有多樣性的文本情況。該方法可以由文本生成裝置來執行,該裝置可以由軟件和/或硬件的方式來實現,集成于電子設備中。如圖1所示,該方法具體包括以下步驟:
[0038]S110、獲取上一時刻生成的預設數量的第一文本。
[0039]其中,預設數量可以是預先設置的,每個時刻生成的文本數量。例如,預設數量也可以用于表征集束寬度。上一時刻可以是指上次生成文本的時刻。當前時刻可以是指當次生成文本的時刻。上一時刻可以是指與當前時刻相鄰的前一時刻。例如,當前時刻為t時刻,上一時刻為t
?
1時刻。第一文本可以是指上一時刻所生成的文本。本實施例中的文本可以利用一個或多個詞組成的詞序列進行表征。完整的文本需要重復地在上一時刻生成的第一文本的基礎上繼續生成獲得的。例如,在首次生成時,獲得的上一時刻對應的第一文本可以為空文本,從而可以從頭生成新文本;或者也可以為預設的已有文本,從而可以在已有文本的基礎上繼續生成文本。隨著時間的推移,生成的文本長度越來越長。
[0040]S120、確定每個第一文本對應的多個第一候選詞,并將每個第一候選詞本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種文本生成方法,其特征在于,包括:獲取上一時刻生成的預設數量的第一文本;確定每個所述第一文本對應的多個第一候選詞,并將每個所述第一候選詞作為第一文本的后綴,生成多個第一候選文本;對多個第一候選文本進行遍歷組合,確定多個候選文本集合,其中,每個候選文本集合包括所述預設數量的第一候選文本;確定每個候選文本集合中重復出現的重復詞,并對所述重復詞對應的詞分數進行懲罰處理,確定所述重復詞對應的目標分數,其中,所述重復詞對應的詞分數用于表征所述重復詞作為文本后綴詞的條件概率值;基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數,確定每個候選文本集合對應的集合分數;基于所述集合分數,從多個候選文本集合中確定目標文本集合,并基于所述目標文本集合,確定當前時刻生成的預設數量的第二文本。2.根據權利要求1所述的方法,其特征在于,所述對所述重復詞對應的詞分數進行懲罰處理,確定所述重復詞對應的目標分數,包括:獲取當前重復詞在每個出現位置對應的詞分數;將至少一個預設出現位置對應的詞分數與預設懲罰系數進行相乘,獲得當前重復詞在所述預設出現位置對應的目標分數;將除預設出現位置之外的剩余出現位置對應的詞分數作為當前重復詞在所述剩余出現位置對應的目標分數。3.根據權利要求1所述的方法,其特征在于,所述基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數,確定每個候選文本集合對應的集合分數,包括:將當前候選文本集合中的各個重復詞對應的目標分數和各個非重復詞對應的詞分數進行相加,獲得的相加結果確定為當前候選文本集合對應的集合分數。4.根據權利要求1所述的方法,其特征在于,所述基于所述集合分數,從多個候選文本集合中確定目標文本集合,并基于所述目標文本集合,確定當前時刻生成的預設數量的第二文本,包括:將所述集合分數最高的候選文本集合確定為目標文本集合,并將所述目標文本集合中的各個目標文本確定為當前時刻生成的預設數量的第二文本。5.根據權利要求1
?
4任一項所述的方法,其特征在于,在確定當前時刻生成的預設數量的第二文本之后,還包括:若所述第二文本的長度大于或等于預設長度,則確定每個所述第二文本對應的多個第二候選詞;將每個所述第二候選詞作為第二文本的后綴,生成多個第二候選文本,并基于每個第二候選文本中的每個詞對應的詞分數,確定每個第二候選文本對應的文本分數;基于所述文本分數,從多個第二候選文本中確定下一時刻生成的預設數量的第三文本。6.根據權利要求5所述的方法,其特征在于,所述將每個所述第二候選詞作為第二文本的后綴,生成多個第二候選文本,并基于每個第二候選文本中的每個詞對應的詞分數,確定
每個第二候選文本對應的文本分數,包括:將當前第二文本對應的每個當前第二候選詞作為當前第二文本的后綴,生...
【專利技術屬性】
技術研發人員:李浩然,吳友政,
申請(專利權)人:北京京東尚科信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。