一種文本生成方法、裝置、設備和存儲介質制造方法及圖紙

技術編號：38437132 閱讀：48 留言：0更新日期：2023-08-11 14:21

本發明專利技術實施例公開了一種文本生成方法、裝置、設備和存儲介質。該方法包括：獲取上一時刻生成的第一文本；確定每個第一文本對應的多個第一候選詞，并將每個第一候選詞作為第一文本的后綴，生成多個第一候選文本；對多個第一候選文本進行遍歷組合，確定多個候選文本集合；基于每個第一候選文本中的每個詞，確定每個候選文本集合中的重復詞，并對重復詞對應的詞分數進行懲罰處理，確定重復詞對應的目標分數；基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數，確定每個候選文本集合對應的集合分數；基于集合分數確定目標文本集合，并基于目標文本集合確定當前時刻生成的第二文本，從而提高了生成文本的多樣性。從而提高了生成文本的多樣性。從而提高了生成文本的多樣性。

全部詳細技術資料下載

【技術實現步驟摘要】
一種文本生成方法、裝置、設備和存儲介質

[0001]本專利技術實施例涉及計算機技術，尤其涉及一種文本生成方法、裝置、設備和存儲介質。

技術介紹

[0002]隨著計算機技術的快速發展，往往需要自動生成一些文本，從而滿足不同的業務需求，比如生成的文本可以用于機器學習或者文本翻譯等。
[0003]目前，通常是通過集束搜索方式(beam search)生成文本。集束搜索方式是用于搜索生成的文本序列的條件概率值最大的序列。
[0004]然而，在實現本專利技術過程中，專利技術人發現現有技術中至少存在如下問題：
[0005]現有的集束搜索方式生成的文本相似度非常高，比如生成的兩個文本長句中只有一個詞不同或者文本語義完全相同，從而導致生成的文本多樣性較低。

技術實現思路

[0006]本專利技術實施例提供了一種文本生成方法、裝置、設備和存儲介質，以提高生成文本的多樣性。
[0007]第一方面，本專利技術實施例提供了一種文本生成方法，包括：
[0008]獲取上一時刻生成的預設數量的第一文本；
[0009]確定每個所述第一文本對應的多個第一候選詞，并將每個所述第一候選詞作為第一文本的后綴，生成多個第一候選文本；
[0010]對多個第一候選文本進行遍歷組合，確定多個候選文本集合，其中，每個候選文本集合包括所述預設數量的第一候選文本；
[0011]基于每個第一候選文本中的每個詞，確定每個候選文本集合中重復出現的重復詞，并對所述重復詞對應的詞分數進行懲罰處理，確定所...

【技術保護點】

【技術特征摘要】
1.一種文本生成方法，其特征在于，包括：獲取上一時刻生成的預設數量的第一文本；確定每個所述第一文本對應的多個第一候選詞，并將每個所述第一候選詞作為第一文本的后綴，生成多個第一候選文本；對多個第一候選文本進行遍歷組合，確定多個候選文本集合，其中，每個候選文本集合包括所述預設數量的第一候選文本；確定每個候選文本集合中重復出現的重復詞，并對所述重復詞對應的詞分數進行懲罰處理，確定所述重復詞對應的目標分數，其中，所述重復詞對應的詞分數用于表征所述重復詞作為文本后綴詞的條件概率值；基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數，確定每個候選文本集合對應的集合分數；基于所述集合分數，從多個候選文本集合中確定目標文本集合，并基于所述目標文本集合，確定當前時刻生成的預設數量的第二文本。2.根據權利要求1所述的方法，其特征在于，所述對所述重復詞對應的詞分數進行懲罰處理，確定所述重復詞對應的目標分數，包括：獲取當前重復詞在每個出現位置對應的詞分數；將至少一個預設出現位置對應的詞分數與預設懲罰系數進行相乘，獲得當前重復詞在所述預設出現位置對應的目標分數；將除預設出現位置之外的剩余出現位置對應的詞分數作為當前重復詞在所述剩余出現位置對應的目標分數。3.根據權利要求1所述的方法，其特征在于，所述基于每個候選文本集合中的重復詞對應的目標分數和非重復詞對應的詞分數，確定每個候選文本集合對應的集合分數，包括：將當前候選文本集合中的各個重復詞對應的目標分數和各個非重復詞對應的詞分數進行相加，獲得的相加結果確定為當前候選文本集合對應的集合分數。4.根據權利要求1所述的方法，其特征在于，所述基于所述集合分數，從多個候選文本集合中確定目標文本集合，并基于所述目標文本集合，確定當前時刻生成的預設數量的第二文本，包括：將所述集合分數最高的候選文本集合確定為目標文本集合，并將所述目標文本集合中的各個目標文本確定為當前時刻生成的預設數量的第二文本。5.根據權利要求1
?
4任一項所述的方法，其特征在于，在確定當前時刻生成的預設數量的第二文本之后，還包括：若所述第二文本的長度大于或等于預設長度，則確定每個所述第二文本對應的多個第二候選詞；將每個所述第二候選詞作為第二文本的后綴，生成多個第二候選文本，并基于每個第二候選文本中的每個詞對應的詞分數，確定每個第二候選文本對應的文本分數；基于所述文本分數，從多個第二候選文本中確定下一時刻生成的預設數量的第三文本。6.根據權利要求5所述的方法，其特征在于，所述將每個所述第二候選詞作為第二文本的后綴，生成多個第二候選文本，并基于每個第二候選文本中的每個詞對應的詞分數，確定
每個第二候選文本對應的文本分數，包括：將當前第二文本對應的每個當前第二候選詞作為當前第二文本的后綴，生...

【專利技術屬性】
技術研發人員：李浩然，吳友政，
申請(專利權)人：北京京東尚科信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術