本發(fā)明專利技術(shù)提供一種確定新聞之間相關(guān)性的方法和裝置,方法包括:將第一新聞與標桿新聞進行比較,得到第一新聞與標桿新聞的距離;將第二新聞與標桿新聞進行比較,得到第二新聞與標桿新聞的距離;計算第一新聞與標桿新聞的距離和第一新聞與標桿新聞的距離之間的距離差,根據(jù)距離差確定第一新聞與第二新聞之間的相關(guān)性。根據(jù)本發(fā)明專利技術(shù),當需要分析不同新聞之間的相關(guān)性時,不必進行多個新聞之間的對比,而是進行多個新聞與標桿新聞之間的比較;由于標桿新聞只有一個,而其他新聞不需要進行互相之間的對比,只需要進行與標桿新聞的對比,即可確定多個新聞之間的相關(guān)性,所以根據(jù)本發(fā)明專利技術(shù)的技術(shù)方案獲取相關(guān)新聞的效率非常高。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機
,具體而言,涉及一種確定新聞之間相關(guān)性的方法和 目.0
技術(shù)介紹
在互聯(lián)網(wǎng)領(lǐng)域內(nèi),當新的新聞出現(xiàn)時,需要將其和已有的新聞進行比較,確定新的新聞和已有的哪些新聞是相關(guān)新聞關(guān)系,以便于在用戶查看新聞時將相關(guān)新聞一起推薦給用戶。由于已有新聞的數(shù)量龐大,而每個新的新聞都需要與所有已有新聞進行比較,導(dǎo)致計算量非常巨大,計算新聞相關(guān)性的效率非常低。
技術(shù)實現(xiàn)思路
鑒于上述問題,提出了本專利技術(shù)以便提供一種克服上述問題或者至少部分地解決上述問題的確定新聞之間相關(guān)性的方法和裝置。依據(jù)本專利技術(shù)的一種確定新聞之間相關(guān)性的方法,包括:將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離;將第二新聞與所述標桿新聞進行比較,得到所述第二新聞與所述標桿新聞的距離;計算所述第一新聞與所述標桿新聞的距離和所述第一新聞與所述標桿新聞的距離之間的距離差,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性。可選地,前述的方法,在將第一新聞與標桿新聞進行比較之前,還包括:識別所述第一新聞的類型,并從標桿新聞集合中選擇具有相對應(yīng)類型的所述標桿新聞。可選地,前述的方法,在將第一新聞與標桿新聞進行比較之前,還包括:獲取所述第一新聞中的關(guān)鍵詞,并從標桿新聞集合中選擇具有所述關(guān)鍵詞的所述標桿新聞。可選地,前述的方法,將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離,具體包括:獲取所述第一新聞的特征屬性,并根據(jù)述第一新聞的特征屬性生成所述第一新聞對應(yīng)的向量,將所述第一新聞對應(yīng)的向量與所述標桿新聞對應(yīng)的向量進行比較;將第二新聞與所述標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離,具體包括:獲取所述第二新聞的特征屬性,并根據(jù)述第二新聞的特征屬性生成所述第二新聞對應(yīng)的向量,并將所述第二新聞對應(yīng)的向量與所述標桿新聞對應(yīng)的向量進行比較。可選地,前述的方法,獲取所述第一新聞的特征屬性,具體包括:對所述第一新聞進行分詞得到多個詞,計算所述第一新聞的多個詞的詞頻,作為所述第一新聞的特征屬性;獲取所述第二新聞的特征屬性,具體包括:對所述第二新聞進行分詞得到多個詞,計算所述第二新聞的多個詞的詞頻,作為所述第二新聞的特征屬性。可選地,前述的方法,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性,具體包括:在所述距離差位于預(yù)設(shè)區(qū)間時,將所述第二新聞設(shè)置為所述第一新聞的相關(guān)新聞,以用于在需推送所述第一新聞的相關(guān)新聞時推送所述第二新聞。依據(jù)本專利技術(shù)的一種確定新聞之間相關(guān)性的裝置,包括:第一距離計算模塊,用于將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離;第二距離計算模塊,用于將第二新聞與所述標桿新聞進行比較,得到所述第二新聞與所述標桿新聞的距離;相關(guān)性計算模塊,用于計算所述第一新聞和所述標桿新聞的距離與所述第一新聞與所述標桿新聞的距離之間的距離差,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性。可選地,前述的裝置,還包括:第一標桿新聞獲取模塊,用于識別所述第一新聞的類型,并從標桿新聞集合中選擇具有相對應(yīng)類型的所述標桿新聞。可選地,前述的裝置,還包括:第二標桿新聞獲取模塊,用于獲取所述第一新聞中的關(guān)鍵詞,并從標桿新聞集合中選擇具有所述關(guān)鍵詞的所述標桿新聞。可選地,前述的裝置,還包括:第一向量生成模塊,用于獲取所述第一新聞的特征屬性,并根據(jù)述第一新聞的特征屬性生成所述第一新聞對應(yīng)的向量;所述第一標桿新聞獲取模塊將所述第一新聞對應(yīng)的向量與所述標桿新聞對應(yīng)的向量進行比較;第二向量生成模塊,用于獲取所述第二新聞的特征屬性,并根據(jù)述第二新聞的特征屬性生成所述第二新聞對應(yīng)的向量;所述第一標桿新聞獲取模塊將所述第二新聞對應(yīng)的向量與所述標桿新聞對應(yīng)的向量進行比較。可選地,前述的裝置,所述第一向量生成模塊對所述第一新聞進行分詞得到多個詞,計算所述第一新聞的多個詞的詞頻,作為所述第一新聞的特征屬性;所述第二向量生成模塊對所述第二新聞進行分詞得到多個詞,計算所述第二新聞的多個詞的詞頻,作為所述第二新聞的特征屬性。可選地,前述的裝置,所述相關(guān)性計算模塊在所述距離差位于預(yù)設(shè)區(qū)間時,將所述第二新聞設(shè)置為所述第一新聞的相關(guān)新聞,以用于在需推送所述第一新聞的相關(guān)新聞時推送所述第二新聞。根據(jù)以上技術(shù)方案,本專利技術(shù)的確定新聞之間相關(guān)性的方法和裝置至少具有以下優(yōu)占.V.根據(jù)本專利技術(shù)的技術(shù)方案,當需要分析不同新聞之間的相關(guān)性時,不必進行多個新聞之間的對比,而是進行多個新聞與標桿新聞之間的比較,如果兩個新聞與標桿之間的距離相似,則說明兩個新聞之間具有一定的類似程度;由于標桿新聞只有一個,而其他新聞不需要進行互相之間的對比,只需要進行與標桿新聞的對比,即可確定多個新聞之間的相關(guān)性,所以根據(jù)本專利技術(shù)的技術(shù)方案獲取相關(guān)新聞的效率非常高。上述說明僅是本專利技術(shù)技術(shù)方案的概述,為了能夠更清楚了解本專利技術(shù)的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本專利技術(shù)的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本專利技術(shù)的【具體實施方式】。【附圖說明】通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本專利技術(shù)的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了根據(jù)本專利技術(shù)的一個實施例的確定新聞之間相關(guān)性的方法的流程圖;圖2示出了根據(jù)本專利技術(shù)的一個實施例的確定新聞之間相關(guān)性的裝置的框圖;圖3示出了根據(jù)本專利技術(shù)的一個實施例的確定新聞之間相關(guān)性的裝置的框圖。【具體實施方式】下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。如圖1所示,本專利技術(shù)的一個實施例中提供了一種確定新聞之間相關(guān)性的方法,包括:步驟110,將第一新聞與標桿新聞進行比較,得到第一新聞與標桿新聞的距離。在本實施例中,對標桿新聞不進行限制,任何一篇新聞都可以選定作為標桿新聞。步驟120,將第二新聞與標桿新聞進行比較,得到第二新聞與標桿新聞的距離。步驟130,計算第一新聞與標桿新聞的距離和第一新聞與標桿新聞的距離之間的距離差,根據(jù)距離差確定第一新聞與第二新聞之間的相關(guān)性。在本實施例中,距離反映了新聞之間的差別,本實施例對計算距離的方式不進行限制;根據(jù)本實施例的技術(shù)方案,容易理解,當?shù)谝恍侣勁c標桿新聞之間的距離,和第二新聞與標桿新聞之間的距離相似時,說明第一新聞與第二新聞之間的距離較近,也就是兩個新聞之間的相關(guān)性較強;當?shù)谝恍侣勁c標桿新聞之間距離較近,第二新聞與標桿新聞之間的距離較遠時,說明第一新聞與第二新聞之間的距離較遠,兩個新聞之間的相關(guān)性較弱。本專利技術(shù)的一個實施例中還提供一種確定新聞之間相關(guān)性的方法,相比于前述的實施例,本實施例的確定新聞之間相關(guān)性的方法,在步驟110之前,還包括:識別第一新聞的類型,并從標桿新聞集合中選擇具有相對應(yīng)類型的標桿新聞。在本實施例中,如果第一新聞、第二新聞與標桿新聞之間的距離過大,只能說明第一新聞、第二新聞與標桿新聞均有很大不同本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種確定新聞之間相關(guān)性的方法,其特征在于,包括:將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離;將第二新聞與所述標桿新聞進行比較,得到所述第二新聞與所述標桿新聞的距離;計算所述第一新聞與所述標桿新聞的距離和所述第一新聞與所述標桿新聞的距離之間的距離差,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張伸正,魏少俊,陳培軍,
申請(專利權(quán))人:北京奇虎科技有限公司,奇智軟件北京有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。