System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大語言模型評估決策,具體涉及一種基于大語言模型智能體的實時廣告評估決策系統。
技術介紹
1、盡管實時廣告評估決策技術已經從深度學習和強化學習等技術中廣泛受益,但相關技術的可靠性常常面臨線上與線下環境差異和在線環境快速波動的挑戰。現有的基于規則的策略過于僵化,無法適應市場的動態變化;而強化學習方法雖有更好的適應性,但面臨訓練數據需求大、訓練收斂困難和決策缺乏可解釋性等問題,影響其應用性、可信度和穩定性。因此,需要在實時廣告評估決策時應用更先進的機器學習模型,實時適應市場變化,從而實時做出更具適應性的決策。
2、大語言模型通過增強智能體的能力,在實現通用人工智能方面取得了重大進展,提高了自主性、響應能力和互動技能,使智能體能夠處理復雜的問題,比如教育領域整合認知科學原理來指導大語言模型,增強他們建模和理解不同學習行為和結果的能力;醫學領域利用大語言模型來模擬醫院環境,使醫療機構能夠通過交互式學習來適應和改進其治療策略。然而,由于廣告評估決策領域需要進行針對性的問題建模及評估決策流程的特異性,現有技術尚未存在基于大模型智能體進行廣告評估決策的方案。
技術實現思路
1、為了克服現有技術存在的缺陷與不足,本專利技術提供一種基于大語言模型智能體的實時廣告評估決策系統,本專利技術基于問題建模模塊將原始實時廣告評估決策問題建模為馬爾科夫過程,通過語料整理與lora監督微調,使大語言模型具備廣告評估決策領域知識,同時基于決策智能體構建模塊構建一個針對廣告評估決策領域的,集點
2、為了達到上述目的,本專利技術采用以下技術方案:
3、本專利技術提供一種基于大語言模型智能體的實時廣告評估決策系統,包括:問題建模模塊、決策智能體構建模塊、廣告評估結果輸出模塊;
4、所述問題建模模塊用于將原始廣告評估決策問題建模為馬爾科夫過程;
5、所述決策智能體構建模塊用于構建基于大語言模型的決策智能體,具體包括:配置文件引導單元、點擊率預估模型訓練單元、基礎決策因子生成單元、記憶模塊構建單元、反思模塊構建單元、洞察推理單元和行動制定單元;
6、所述配置文件引導單元用于生成配置文件,所述點擊率預估模型訓練單元用于訓練點擊率預估模型,輸出歷史數據的廣告點擊率預估結果,所述基礎決策因子生成單元用于根據廣告點擊率預估結果計算基礎決策因子,所述記憶模塊構建單元用于構建記憶模塊,記憶模塊調用大語言模型的操作得到記憶總結結果,所述反思模塊構建單元用于構建反思模塊,反思模塊將當前時間步的記憶輸入大語言模型得到日常反思結果,所述洞察推理單元用于將當前時間步的廣告活動狀態、記憶總結結果和基礎決策因子輸入大語言模型得到洞察推理結果,所述行動制定單元用于將當前時間步的廣告活動狀態、記憶總結結果、洞察推理結果和基礎決策因子輸入大語言模型得到行動制定結果;
7、所述廣告評估結果輸出模塊用于基于廣告點擊率預估結果、行動制定結果和基礎決策因子得到每個廣告的最終廣告評估結果。
8、作為優選的技術方案,所述問題建模模塊用于將原始廣告評估決策問題建模為馬爾科夫過程,具體包括:
9、將原始廣告評估決策問題通過形式化建模為給定預算的最大化價值問題,表示為:
10、;
11、;
12、其中,、分別表示廣告展示 i的價值和成本,表示贏得或失去展示廣告展示, b表示廣告活動的預算;
13、為了求解給定預算的最大化價值問題,引入廣告展示 i的廣告決策結果表示為:
14、;
15、其中,是可行決策因子;
16、將形式化問題建模為馬爾科夫,在每個時間步,智能體基于當前時間步的廣告活動狀態,根據策略執行調整參數以更新可行決策因子,根據轉移映射過渡到新的狀態;
17、其中,表示當前時間步的廣告活動狀態的集合,表示動作空間,轉移映射,表示笛卡爾積,是上的概率和分布的集合,表示從一個集合中的元素到另一個集合中的元素的映射關系;
18、環境根據當前廣告活動狀態和智能體行為,為智能體提供即時獎勵,得到最大化期望累積獎勵的策略,表示為:
19、;
20、;
21、;
22、其中,表示在時間步 t的廣告活動狀態和內部推理信息的條件下,大語言模型智能體進行動作輸出的策略,g(·)表示大語言模型的操作解析函數,是策略參數,表示在策略下的期望累積獎勵,表示在時間步 t的廣告活動狀態賦值為對應的廣告活動狀態值 s,表示在時間步 t的內部推理信息賦值為對應的內部推理信息值,是第 i個時間步的獎勵折扣因子,表示獎勵,表示記憶總結結果,表示工具調用結果,包括廣告點擊率預估結果和基礎決策因子,表示洞察推理結果,表示行動制定結果,表示日常反思結果。
23、作為優選的技術方案,所述點擊率預估模型包括輸入層、用于特征映射的嵌入層、用于捕獲特征交互的交互層以及輸出層,輸入層使用廣告展示的特征向量作為輸入,輸出層基于 sigmoid函數將輸出轉換為概率形式;
24、點擊率預估模型采用二分類交叉熵損失,用于衡量模型預測的概率分布與實際發生的概率分布之間的差異。
25、作為優選的技術方案,所述基礎決策因子生成單元用于根據廣告點擊率預估結果計算基礎決策因子,具體包括:
26、計算每個歷史流量數據的點擊率預估值與廣告展示成本的比值得到性價比,按從大到小排序,計算設定預算下最多能得到的前個流量,用第個流量性價比的反比作為基礎決策因子。
27、作為優選的技術方案,所述記憶模塊調用大語言模型的操作得到記憶總結結果,具體表示為:
28、;
29、其中,表示記憶總結結果,是記憶類型 i在時間步 t的記憶,是記憶總結的提示詞模板,指的是調用大語言模型的操作, bid表示決策記憶類型, 本文檔來自技高網...
【技術保護點】
1.一種基于大語言模型智能體的實時廣告評估決策系統,其特征在于,包括:問題建模模塊、決策智能體構建模塊、廣告評估結果輸出模塊;
2.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述問題建模模塊用于將原始廣告評估決策問題建模為馬爾科夫過程,具體包括:
3.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述點擊率預估模型包括輸入層、用于特征映射的嵌入層、用于捕獲特征交互的交互層以及輸出層,輸入層使用廣告展示的特征向量作為輸入,輸出層基于sigmoid函數將輸出轉換為概率形式;
4.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述基礎決策因子生成單元用于根據廣告點擊率預估結果計算基礎決策因子,具體包括:
5.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述記憶模塊調用大語言模型的操作得到記憶總結結果,具體表示為:
6.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述反思模
7.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述洞察推理單元用于將當前時間步的廣告活動狀態、記憶總結結果和基礎決策因子輸入大語言模型得到洞察推理結果,具體表示為:
8.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述行動制定單元用于將當前時間步的廣告活動狀態、記憶總結結果、洞察推理結果和基礎決策因子輸入大語言模型得到行動制定結果,具體表示為:
9.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述廣告評估結果輸出模塊用于基于廣告點擊率預估結果、行動制定結果和基礎決策因子得到每個廣告的最終廣告評估結果,具體表示為:
10.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述大語言模型通過語料整理與LoRA監督微調,得到微調的大語言模型,所述語料以問題-答案對的形式構建。
...【技術特征摘要】
1.一種基于大語言模型智能體的實時廣告評估決策系統,其特征在于,包括:問題建模模塊、決策智能體構建模塊、廣告評估結果輸出模塊;
2.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述問題建模模塊用于將原始廣告評估決策問題建模為馬爾科夫過程,具體包括:
3.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述點擊率預估模型包括輸入層、用于特征映射的嵌入層、用于捕獲特征交互的交互層以及輸出層,輸入層使用廣告展示的特征向量作為輸入,輸出層基于sigmoid函數將輸出轉換為概率形式;
4.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述基礎決策因子生成單元用于根據廣告點擊率預估結果計算基礎決策因子,具體包括:
5.根據權利要求1所述的基于大語言模型智能體的實時廣告評估決策系統,其特征在于,所述記憶模塊調用大語言模型的操作得到記憶總結結果,具體表示為:
6.根據權利要求1所述的基于大語言模型智能體的實時廣...
【專利技術屬性】
技術研發人員:蔡棱,何俊軒,徐進,楊振坤,李翊愷,曾雅文,
申請(專利權)人:華南理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。