System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及通信算法,具體為一種基于通信數據的旅游用戶識別方法及系統。
技術介紹
1、隨著旅游業的快速發展和移動互聯網的普及,游客管理成為提升旅游體驗和景區運營效率的關鍵環節,傳統的游客識別方法多依賴于人工統計和問卷調查,不僅效率低下,且難以全面、準確地反映游客的實際行為和需求,因此,探索基于大數據和通信技術的自動化游客識別方法顯得尤為重要。
2、盡管通信技術為游客識別提供了可能,但傳統的基于位置的服務lbs主要依賴于gps數據,存在隱私泄露的風險,且數據獲取難度較大,另一方面,基于基站信令數據的識別方法,精度相對較低,難以滿足精細化管理的需求,此外,現有技術缺乏一種能夠綜合多種通信數據,實現高效、準確游客識別的技術方案。
3、因此,本專利技術提出了一種基于通信數據的旅游用戶識別方法及系統,為旅游行業的智能化管理和個性化服務提供新的思路和解決方案。
技術實現思路
1、本專利技術的目的就是為了彌補現有技術的不足,提供了一種基于通信數據的旅游用戶識別方法及系統,它能夠利用用戶的o域數據、b域數據以及旅游景點的相關數據,通過先進的數據處理和分析技術,構建用戶的行程軌跡,將用戶的行程軌跡與旅游景點的位置進行匹配,實現對旅游用戶的全面、準確識別。
2、本專利技術為解決上述技術問題,提供如下技術方案:一方面,一種基于通信數據的旅游用戶識別方法,該方法的具體步驟為:
3、s1、景區數據獲取:對各景點數據進行爬取,即選取多個數據源進行爬取與數據融合
4、以采集的數據為基礎,獲取并關聯景區、景點的景區屬性,所述景區屬性包括是否4a景區、是否3a景區、經緯度、景區面積;
5、s2、構建用戶行程序列數據:同一用戶,連續時間內經過的地點由多條數據組成的數據集合為該用戶的行程數據:<起止點為常駐居住地,途中經過的地點為行程中的內容>,所述常駐居住地引入篩選邏輯,對連續4個月未出現的常駐地進行過濾;
6、剔除行程集合中駐留時長小于半小時的行程點數據;
7、使用過濾和剔除后的用戶行程集合中的數據關聯用戶特征,生成行程點縱表,其中trace_id為行程id,用于標識行程點的行程類別,所述trace_id生成規則為:用戶號碼+行程起始行程點對應的時間戳,即trace_id=user_number+start_time_stamp,其中user_number表示用戶號碼,start_time_stamp表示行程起始行程點對應的時間戳;
8、將行程縱表轉為橫表,固定行程表中每個行程的點為10個,即對于少于10個行程點的行程,將不足的部分統一補空值,對于多于10個行程點的行程保留前10個行程點,橫表的字段數為字段數*10;
9、將用戶行程組成序列,即對特征進行行轉列操作,構造特征的維度為(n_data,n_xc,n_feas),其中n_data為序列數據條數,n_xc為行程序列長度,n_feas為特征列個數;
10、s3、構建旅游行程識別規則:確定游客的規則判斷條件因子,所述判斷條件因子包含是否一日游、是否過夜游、是否酒店過夜、離常駐地距離、酒店駐留時長、旅游標的物行程點數;
11、使用層次分析法構建旅游行程評分矩陣,基于確定的影響因子權重計算行程屬于旅游行程的置信度值;
12、根據層次分析法輸出的權重進行加權評分,輸出最終得分值,得到每個用戶是旅游客戶的規則預測結果;
13、s4、訓練旅游行程識別模型:從基礎數據集中去除用戶常駐地對應行程,所述常駐地對應行程包括常駐工作地、學校以及公園,通過poi維表關聯出公園、工作地、學校;
14、使用人工標注方式標注部分數據集,標注行程是否屬于旅游行程;
15、對標注后的行程數據進行特征工程處理,所述特征工程處理包括:對數據集進行異常值與空值處理、將地圖poi特征進行數值化處理以及對整個數據集進行標準化操作;
16、使用標注的序列數據集進行模型訓練,預測用戶的行程序列數據,得到每個用戶是旅游客戶的概率;
17、s5、輸出旅游行程預測結果,識別出旅游客戶:對模型輸出的預測概率和規則輸出的預測結果進行加權,并將模型權重設定為60%,規則權重設定為40%;
18、對用戶的行程序列數據進行標注,具體包括:
19、對于行程中包含景區,則標注為“景點游行程”;
20、對于“景點游行程”,基于行程中的景點進行進一步標注,多個景點以“|”分割,輸出標注好的“景點游行程”數據,包括用戶id、行程開始時間、行程結束時間、景點標注的信息;
21、根據加權后的預測得分和行程標注結果,制定旅游客戶的識別標準并設置閾值,即對加權后的預測得分大于閾值且行程被標注為“景點游行程”和“多景點游行程”時,識別為旅游客戶,輸出識別出的旅游客戶列表,包括用戶id、行程信息和預測得分的信息。
22、進一步地,所述s2在構建用戶行程序列數據過程中,將行程縱表轉為橫表時,行程縱表中每個行程點包含p個字段,橫表中每個行程點的字段依次編號為f1,f2,…,f10p,對于少于10個行程點的行程,補空值的規則為:當行程包含q個行程點且q<10,則從第(q+1)個行程點開始補空值,即第(q+1)個行程點對應的字段f(q×p+1)到f((q+1)×p)均填充空值,直到第10個行程點對應的字段f(9×p+1)到f10p均填充空值,對于多于10個行程點的行程,保留前10個行程點的方式為:直接選取前10個行程點的數據填充到橫表中對應的字段位置。
23、更進一步地,所述s2在構建用戶行程生成序列數據時,對用戶行程集合中共有m個行程,第i個行程包含ni個行程點且ni≤10,則序列數據條數ndata=m,行程序列長度nxc=10,特征列個數nfeas=p×10,p為行程縱表中每個行程點包含的字段數,序列數據的生成方式為:將每個行程點的特征值按順序依次排列,形成一個特征向量,m個行程的特征向量組合成序列數據,即對于第i個行程,其第j個行程點j≤ni的特征值依次填充到序列數據中第(i-1)×10×p+(j-1)×p+1到(i-1)×10×p+j×p的位置,對于j>ni,則對應位置填充空值。
24、更進一步地,所述s3構建旅游行程識別規則中使用層次分析法構建旅游行程評分矩陣,其旅游行程評分矩陣構建公式為:其中aij表示第i個判斷條件因子相對于第j個判斷條件因子的相對重要程度且滿足aii=1,n為影響因子的個數,影響因子包括是否一日游、是否過夜游、是否酒店過夜離常駐地距離、酒店駐留時長、旅游標的物行程點數。
25、更進一步地,所述s3基于確定的影響因子權重計算行程屬于旅游行程的置信度值,其行程屬于旅游行程的置信度值c為:其中wi為第i個判斷條件因子的權重,fi為第i個判斷條件因子的特征值,n為本文檔來自技高網...
【技術保護點】
1.一種基于通信數據的旅游用戶識別方法,其特征在于,該方法的具體步驟為:
2.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S2在構建用戶行程序列數據過程中,將行程縱表轉為橫表時,行程縱表中每個行程點包含p個字段,橫表中每個行程點的字段依次編號為f1,f2,…,f10p,對于少于10個行程點的行程,補空值的規則為:當行程包含q個行程點且q<10,則從第(q+1)個行程點開始補空值,即第(q+1)個行程點對應的字段f(q×p+1)到f((q+1)×p)均填充空值,直到第10個行程點對應的字段f(9×p+1)到f10p均填充空值,對于多于10個行程點的行程,保留前10個行程點的方式為:直接選取前10個行程點的數據填充到橫表中對應的字段位置。
3.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S2在構建用戶行程生成序列數據時,對用戶行程集合中共有m個行程,第i個行程包含ni個行程點且ni≤10,則序列數據條數ndata=m,行程序列長度nxc=10,特征列個數nfeas=p×10,p為行程縱表中每個行程點
4.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S3構建旅游行程識別規則中使用層次分析法構建旅游行程評分矩陣,其旅游行程評分矩陣構建公式為:其中aij表示第i個判斷條件因子相對于第j個判斷條件因子的相對重要程度且滿足aii=1,n為影響因子的個數,影響因子包括旅游行程類型、離常駐地距離、酒店駐留時長、旅游標的物行程點數。
5.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S3基于確定的影響因子權重計算行程屬于旅游行程的置信度值,其行程屬于旅游行程的置信度值C為:其中wi為第i個判斷條件因子的權重,fi為第i個判斷條件因子的特征值,n為判斷條件因子的個數。
6.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S3在旅游行程識別規則構建步驟中,影響因子權重wi確定公式為:其中wi表示第i個判斷條件因子的權重,ai表示第i個判斷條件因子在旅游行程評分矩陣M中的重要程度值,即矩陣M中第i行元素之和,n為判斷條件因子的個數,根據構建的旅游行程評分矩陣M,計算得到權重wi。
7.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述S5在旅游行程預測結果輸出及旅游客戶識別過程中,加權得分S為:S=0.6×Pm+0.4×Pr,其中Pm表示模型輸出的預測概率,Pr表示規則輸出的預測結果,對模型輸出的預測概率Pm進行歸一化處理后在0到1之間,規則輸出的預測結果Pr經過量化處理后也在0到1之間,具體量化方式為:根據構建旅游行程識別規則步驟中得到的置信度值C,設定閾值T1,當C≥T1時,Pr=1,否則Pr=0。
8.一種基于通信數據的旅游用戶識別系統,其特征在于,該系統的組成包括:景區數據采集模塊、行程序列構建模塊、規則構建模塊、行程序列預測模塊、識別輸出模塊;
...【技術特征摘要】
1.一種基于通信數據的旅游用戶識別方法,其特征在于,該方法的具體步驟為:
2.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述s2在構建用戶行程序列數據過程中,將行程縱表轉為橫表時,行程縱表中每個行程點包含p個字段,橫表中每個行程點的字段依次編號為f1,f2,…,f10p,對于少于10個行程點的行程,補空值的規則為:當行程包含q個行程點且q<10,則從第(q+1)個行程點開始補空值,即第(q+1)個行程點對應的字段f(q×p+1)到f((q+1)×p)均填充空值,直到第10個行程點對應的字段f(9×p+1)到f10p均填充空值,對于多于10個行程點的行程,保留前10個行程點的方式為:直接選取前10個行程點的數據填充到橫表中對應的字段位置。
3.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述s2在構建用戶行程生成序列數據時,對用戶行程集合中共有m個行程,第i個行程包含ni個行程點且ni≤10,則序列數據條數ndata=m,行程序列長度nxc=10,特征列個數nfeas=p×10,p為行程縱表中每個行程點包含的字段數,序列數據的生成方式為:將每個行程點的特征值按順序依次排列,形成一個特征向量,m個行程的特征向量組合成序列數據,即對于第i個行程,其第j個行程點j≤ni的特征值依次填充到序列數據中第(i-1)×10×p+(j-1)×p+1到(i-1)×10×p+j×p的位置,對于j>ni,則對應位置填充空值。
4.根據權利要求1所述的一種基于通信數據的旅游用戶識別方法,其特征在于,所述s3構建旅游行程識別規則中使用層次分析法構建旅游行程評分矩陣,其旅游...
【專利技術屬性】
技術研發人員:伏釗,魏婷婷,張良玉,
申請(專利權)人:貴州電子科技職業學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。