本發明專利技術公開了一種基礎房型自動聚合方法。本方法為:1)對于同一家酒店,分別從兩不同來源上獲取該酒店的房型名稱數據,每組房型名稱數據中包括多個基礎房型名稱;2)對每組房型名稱數據分別進行結構化處理,得到該組房型名稱數據中每個房型名稱的結構化信息;3)對步驟2)得到的所述結構化信息中的元素進行兩兩組合并計算每一組合的匹配度;4)將基礎房型名稱兩兩組合生成若干候選聚合方案,得到一聚合方案候選集合;5)根據每一候選聚合方案中的各組合的匹配度,計算該候選聚合方案的綜合得分;將綜合得分最高的候選聚合方案做為最終聚合結果。相較于傳統的通過字符串相似度的聚合方式,本發明專利技術召回率提升了27%,準確率提高了5%。
【技術實現步驟摘要】
一種基礎房型自動聚合方法
本專利技術屬于信息
,涉及一種在線旅游網站、比價平臺、價格一致性監控方法,特別是涉及一種基于文本信息的房型自動聚合方法。
技術介紹
隨著在線旅游網站的飛速發展,酒店在線預定平臺云集,多個平臺推出了價格對比功能。可以對比出同一房型在不同OTA(OnlineTravelAgent,在線旅游社,如攜程、去哪等)的價格及不同的房型的價格差距。要進行價格對比首先要確定不同OTA酒店的匹配關系,之后再對具體的房型進行聚合,為了降低人工成本,大多釆用自動聚合的方法,但傳統的釆用字符串的聚合方法有以下不足:●精確匹配召回率較低。●模糊匹配準確率難以控制。●同一個基礎房型的表述方式不同,導致的無法聚合,例如:兩人間與雙人房,單人間與單間。●同一個基礎房型在不同OTA上表述方式不同,導致的無法聚合,例如:雙床房與標準間。
技術實現思路
針對上述問題,本專利技術的目的在于提供一種基礎房型自動聚合方法。本專利技術充分利用文本信息,從文本中抽取出房型的關鍵要素,提高了聚合的魯棒性,避免無用信息對聚合過程中的干擾。基于本專利技術的結果,當用戶在網頁中查看某家酒店的房型信息時,可從數據庫中查詢出該房型在不同來源上對應的(已經聚合的)房型與其進行價格等方面的對比,用戶根據對比結果選取目標房型。本方法釆用如下方案對房型進行自動聚合:一種基礎房型自動聚合方法,其步驟為:1)對于同一家酒店,分別從兩不同來源上獲取該酒店的房型名稱數據,每組房型名稱數據中包括多個基礎房型名稱;2)對每組房型名稱數據分別進行結構化處理,得到該組房型名稱數據中每個房型名稱的結構化信息;其中,第一組房型名稱的結構化信息為(a1、a2、…、ai、…、an),第二組房型名稱的結構化信息為(b1、b2、…、bi、…、bn);n為結構化信息中的元素總數;3)對步驟2)得到的所述結構化信息中的元素進行兩兩組合并計算每一組合的匹配度;4)將基礎房型名稱兩兩組合生成若干候選聚合方案,得到一聚合方案候選集合;其中,任一候選聚合方案(a1-bi、a2-bj、…、ai-bk、…、an-bm)中每一組合ai-bk的匹配度均大于設定閾值;bi、bj、…、bk、…、bm均為第二組房型名稱的結構化信息中的元素;5)根據每一候選聚合方案中的各組合的匹配度,計算該候選聚合方案的綜合得分;將綜合得分最高的候選聚合方案做為最終聚合結果。進一步的,使用決策樹算法計算所述匹配度;所述決策樹算法構建的樹結構為二叉樹或非二叉樹,其中,每個非葉節點表示一個特征屬性上的測試,連接非葉節點的分支代表該非葉節點對應的特征屬性在該特征屬性的值域上的輸出,每個葉節點存放一個類別。進一步的,計算所述匹配度的方法為:31)從房型名稱的結構化信息中確定待匹配的特征;32)對每種特征進行度量得到該特征的增益率;33)選擇增益率最大的特征進行分裂,形成該房型名稱的決策樹;34)將決策樹上的葉子節點標記上對應元素組合的匹配度。進一步的,所述結構化信息的生成方法為:41)對房型名稱數據進行規范化處理;42)對步驟41)規范化后的文本進行分詞,得到房型名稱的詞序列;43)從所述詞序列中進行要素抽取,并標注要素類別,形成所述結構化信息。進一步的,得到所述詞序列的方法為:首先采用基于詞典的最大匹配分詞方法對步驟41)規范化后的文本進行分詞,然后對于有歧義的分詞采用序列標注的分詞方法進行分詞,得到所述詞序列。進一步的,得到所述詞序列的方法為:對于待分詞的漢子序列,采用正向最大匹配和逆向最大匹配分別依次尋找匹配的最長詞典詞,如果該漢子序列中存在沒有被匹配上的單詞,則將其作為單字詞處理,直至該漢字序列處理完畢;對于正向最大匹配和逆向最大匹配不一致的單詞作為有歧義的分詞,采用有監督的序列標注的分詞方法進行分詞。進一步的,步驟43)的實現方法為:對于所述詞序列中的每一個詞,判斷其是否在設定知識庫中,如果在則將該詞抽取出來并根據知識庫標記相應的類型;形成所述結構化信息。進一步的,構建所述知識庫的方法為:首先初始化若干關鍵詞;然后對每條房型名稱文本統計關鍵詞左鄰、右鄰若干個字以內所有可能的詞的頻次;過濾掉頻次小于設定閾值的詞;然后對剩余的詞進行篩選得到所述知識庫。房型自動聚合方法分為三個階段:1.抽取房型信息中的要素。要素是指房型的重要特征,例如“床型”、“房間設施”等。具體步驟如下:a)對文本進行規范化。例如統一中文標點、統一全角半角字符、統一中文數字以及繁體中文轉簡體中文等操作。b)文本分詞,基于詞典和統計的方法對基礎房型文本進行分詞。c)結構化數據,根據知識庫抽取房型名稱要素信息,包括“床數”、“人數”、“床型”、“是否有窗”、“設備”等等。知識庫的構建方法參見具體實施方式。2.計算各個房型之間的匹配度。匹配度是指同一家酒店的不同基礎房型之間匹配關系的概率。該階段我們使用上一階段抽取的房型名稱要素,通過使用決策樹算法計算它們的匹配度。3.房型聚合。通過聚合策略,選擇最優的聚合方案。與現有技術相比,本專利技術的積極效果為:相較于傳統的通過字符串相似度的聚合的方式,本專利技術召回率提升了27%,準確率提高了5%。附圖說明圖1為本專利技術的方法流程圖。具體實施方式下面通過實施例的方式進一步說明本專利技術,但并不因此將本專利技術限制在所述的實施例范圍之中。本專利技術的聚合方法流程如圖1所示,其步驟包括:步驟1獲取兩組房型名稱數據。從數據庫中查詢出同一家酒店在兩個不同來源上(比如分別從攜程網站和藝龍網站上)的基礎房型名稱。這樣本專利技術便可以得到兩組數據,每組數據中包括多個基礎房型名稱。步驟2第一組數據處理。在上一步可以得到要進行匹配的兩組基礎房型名稱數據。本步驟將對第一組房型名稱數據中的每一個基礎房型名稱進行結構化處理,得到該組房型名稱中每個房型名稱的結構化信息。具體的結構化處理步驟包括:21)文本規范化本步驟對基礎房型名稱進行規范化處理,得到規范化后的文本。文本規范化的意義有兩個,一是將擁有相同意義的不同文本轉換成統一格式,二是將文本中無意義并且干擾后續處理的內容進行刪除。規范化的處理給后續的分析減輕了負擔。具體的規范化的內容有:a)對中文標點以及英文大小寫做統一。例如:去除空格,以及半角、全角括號的統一。b)將繁體中文轉換成簡體中文。c)將近義詞進行規范。例如:“標準間”、“標準房”,統一規范為“標準房”d)將縮寫進行規范,例如:“商套”規范為“商務套房”22)文本分詞上一步驟中,得到了基礎房型名稱的規范化文本,該步驟對規范化后的文本進行分詞,得到基礎房型名稱的詞序列。中文分詞是中文自然語言處理的基礎步驟,本專利技術分詞采用詞典分詞和統計分詞融合的方法。首先采用基于詞典的最大匹配分詞方法,針對分詞有歧義的部分再采用序列標注的分詞方法。基于詞典的最大匹配分詞方法,給定詞典,對于待分詞的漢字序列(基礎房型名稱的規范化文本),依次尋找匹配的最長詞典詞,無匹配者則將該字作為單字詞處理,直至該漢字序列處理完畢。按照對漢字序列掃描方向的不同,該方法又可以分為:正向最大匹配(從左向右匹配)和逆向最大匹配(從右向左匹配)。例如,對于序列“當原子結合成分子時”,正向最大匹配結果為“當|原子|結合|成|分子|時”,而逆向最大匹配結果為“當|原子|結合|成分|子時”。顯然,正向本文檔來自技高網...

【技術保護點】
一種基礎房型自動聚合方法,其步驟為:1)對于同一家酒店,分別從兩不同來源上獲取該酒店的房型名稱數據,每組房型名稱數據中包括多個基礎房型名稱;2)對每組房型名稱數據分別進行結構化處理,得到該組房型名稱數據中每個房型名稱的結構化信息;其中,第一組房型名稱的結構化信息為(a1、a2、…、ai、…、an),第二組房型名稱的結構化信息為(b1、b2、…、bi、…、bn);n為結構化信息中的元素總數;3)對步驟2)得到的所述結構化信息中的元素進行兩兩組合并計算每一組合的匹配度;4)將基礎房型名稱兩兩組合生成若干候選聚合方案,得到一聚合方案候選集合;其中,任一候選聚合方案(a1?bi、a2?bj、…、ai?bk、…、an?bm)中每一組合ai?bk的匹配度均大于設定閾值;bi、bj、…、bk、…、bm均為第二組房型名稱的結構化信息中的元素;5)根據每一候選聚合方案中的各組合的匹配度,計算該候選聚合方案的綜合得分;將綜合得分最高的候選聚合方案做為最終聚合結果。
【技術特征摘要】
1.一種基礎房型自動聚合方法,其步驟為:1)對于同一家酒店,分別從兩不同來源上獲取該酒店的房型名稱數據,每組房型名稱數據中包括多個基礎房型名稱;2)對每組房型名稱數據分別進行結構化處理,得到該組房型名稱數據中每個房型名稱的結構化信息;其中,第一組房型名稱的結構化信息為(a1、a2、…、ai、…、an),第二組房型名稱的結構化信息為(b1、b2、…、bi、…、bn);n為結構化信息中的元素總數;3)對步驟2)得到的所述結構化信息中的元素進行兩兩組合并計算每一組合的匹配度;4)將基礎房型名稱兩兩組合生成若干候選聚合方案,得到一聚合方案候選集合;其中,任一候選聚合方案(a1-bi、a2-bj、…、ai-bk、…、an-bm)中每一組合ai-bk的匹配度均大于設定閾值;bi、bj、…、bk、…、bm均為第二組房型名稱的結構化信息中的元素;5)根據每一候選聚合方案中的各組合的匹配度,計算該候選聚合方案的綜合得分;將綜合得分最高的候選聚合方案做為最終聚合結果。2.如權利要求1所述的方法,其特征在于,使用決策樹算法計算所述匹配度;所述決策樹算法構建的樹結構為二叉樹或非二叉樹,其中,每個非葉節點表示一個特征屬性上的測試,連接非葉節點的分支代表該非葉節點對應的特征屬性在該特征屬性的值域上的輸出,每個葉節點存放一個類別。3.如權利要求1或2所述的方法,其特征在于,計算所述匹配度的方法為:31)從房型名稱的結構化信息中確定待匹配的特征;32)對每種特征進行度量得到該特征的增益率;33)選擇...
【專利技術屬性】
技術研發人員:張猛,楊洪偉,陳藝方,林小俊,陳文哲,
申請(專利權)人:北京眾薈信息技術股份有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。