• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>四川大學專利>正文

    一種應用程序越界收集個人信息行為的判定方法技術

    技術編號:36431003 閱讀:22 留言:0更新日期:2023-01-20 22:43
    本發明專利技術公開了一種應用程序越界收集個人信息行為的判定方法,包括:訓練Word2vector詞嵌入模型;訓練命名實體識別模型;訓練文本分類模型;確定每種類型的應用程序的基本業務和必要個人信息,形成合規三元組。形成待檢測隱私政策文本的XML樹結構;計算XML樹中節點的title屬性值與預定義文本的相似度,若相似度大于閾值,則將該節點中的文本內容作為第二信息;從所述第二信息中提取出業務內容和個人信息類別;利用文本分類模型預測業務內容的業務種類,形成待檢測三元組;根據待檢測應用程序的類型獲取對應的合規三元組,將合規三元組與待檢測三元組進行對比。本發明專利技術的方法極大提高了對隱私政策文本的解析速度和準確率。了對隱私政策文本的解析速度和準確率。了對隱私政策文本的解析速度和準確率。

    【技術實現步驟摘要】
    一種應用程序越界收集個人信息行為的判定方法


    [0001]本專利技術涉及信息安全
    ,特別是涉及一種應用程序越界收集個人信息行為的判定方法。

    技術介紹

    [0002]隨著國內移動應用程序數量與手機上網網民數量的爆發式增長,用戶數據泄漏、個人信息越界收集等問題越發嚴重,嚴重威脅了廣大用戶的個人信息安全。雖然目前已有一些針對移動應用程序行為分析的方法,但是這些方法仍然存在一些不足。例如,隱私政策文本雖然是非結構化數據,但是大多隱私政策通常是隱含一定的結構特征的,例如通常會以序號、小標題等形式來進行分塊和引導,每一塊描述隱私政策的不同內容,如圖1所示,現有方法沒有利用這樣的結構特征,可能會導致機器學習模型對文本語義的理解出現偏差、模型準確率較低的問題;且現有方法大多使用深度學習模型,可能造成計算量大、效率較低等問題。

    技術實現思路

    [0003]本專利技術的目的在于克服現有技術的一項或多項不足,提供一種應用程序越界收集個人信息行為的判定方法。
    [0004]本專利技術的目的是通過以下技術方案來實現的:一種應用程序越界收集個人信息行為的判定方法,包括:
    [0005]S100.獲取原始語料庫,并基于所述原始語料庫訓練Word2vector詞嵌入模型,所述原始語料庫為應用程序市場中各應用程序的隱私政策文本;
    [0006]S200.基于第一信息進行訓練得到用于識別命名實體的命名實體識別模型,所述第一信息為所述原始語料庫中關于個人信息收集與使用的描述內容,所述命名實體包括業務內容和個人信息類別;<br/>[0007]S300.利用預先標注的數據集訓練文本分類模型;
    [0008]S400.根據預設規則確定每種類型的應用程序的基本業務和必要個人信息,并形成各類應用程序的合規三元組,所述合規三元組包括應用程序類型、基本業務和必要個人信息。
    [0009]S500.提取待檢測隱私政策文本中的序號和小標題作為節點,形成所述待檢測隱私政策文本的XML樹結構,其中,所述序號作為所述XML樹結構中節點的mark屬性值,所述小標題作為XML樹結構中節點的title屬性值;
    [0010]S600.利用所述Word2vector詞嵌入模型計算所述XML樹中節點的title屬性值與預定義文本的相似度,若相似度大于閾值,則將該節點中的文本內容作為第二信息;S700.利用所述命名實體識別模型從所述第二信息中提取出業務內容和個人信息類別,并形成二元組,所述二元組包括業務內容和個人信息類別;
    [0011]S800.獲取待檢測隱私政策文本中包括所述業務內容的描述文本,基于所述描述
    文本、利用文本分類模型預測所述業務內容的業務種類,并形成待檢測三元組,所述待檢測三元組包括業務內容、業務種類和個人信息類別;
    [0012]S900.根據待檢測應用程序的類型獲取對應的合規三元組,并將獲取到的合規三元組與待檢測三元組進行對比,判斷應用程序是否越界收集個人信息。
    [0013]優選的,所述命名實體識別模型為LSTM+CRF模型、BiLSTM+CRF模型或ID
    ?
    CNN+CRF模型。
    [0014]優選的,所述文本分類模型為SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。
    [0015]優選的,利用預先標注的數據集訓練文本分類模型,包括:
    [0016]S310.獲取基本業務的描述語句樣本和附加業務的描述語句樣本;
    [0017]S320.對所述描述語句樣本進行第一預處理;
    [0018]S330.將經第一預處理后的描述語句樣本輸入TextCNN模型,所述TextCNN模型的輸出為所述描述語句樣本屬于基本業務和附加業務兩個類別的概率向量,然后利用所述描述語句樣本的真實類別標簽對TextCNN模型進行訓練、直至TextCNN模型收斂,最終得到文本分類模型。
    [0019]優選的,對所述描述語句樣本進行第一預處理,包括:
    [0020]S321.對所述描述語句樣本進行分詞;
    [0021]S322.對分詞后的描述語句樣本去除停用詞;
    [0022]S323.根據預先定義的值對去除停用詞后的描述語句樣本的文本長度進行填充和截斷,以使所有描述語句樣本的文本長度相同;
    [0023]S324.將進行填充和截斷后的描述語句樣本中的詞語轉換為向量。
    [0024]優選的,利用所述Word2vector詞嵌入模型將所述描述語句樣本中的詞語轉換為向量。
    [0025]優選的,所述XML樹結構的生成方法包括:
    [0026]S510.將待檢測隱私政策文本進行第二預處理,并根據句號和回車符對所述待檢測隱私政策文本進行分句;
    [0027]S520.利用預先設置的正則表達式提取所述待檢測隱私政策文本中各句子的序號,生成待檢測隱私政策文本的序號列表;
    [0028]S530.創建XML樹結構的根節點;
    [0029]S540.遍歷所述序號列表,分別判斷各序號是否為起始序號:若所述序號為起始序號,則創建新的子節點,并將該序號作為該子節點的mark屬性值,將該序號對應的小標題作為該子節點的title屬性值;若所述序號不是起始序號,則尋找該序號的前序號,并獲取該前序號的父節點,為該父節點創建新的子節點,將該序號作為該子節點的mark屬性值,將該序號對應的小標題作為該子節點的title屬性值;
    [0030]S550.為每個節點填充文本內容,形成XML樹結構。
    [0031]優選的,所述預定義文本為:個人信息收集與使用。
    [0032]優選的,生成待檢測三元組時利用相似度計算算法將對同一事物的不同描述方式進行實體對齊。
    [0033]優選的,將獲取到的合規三元組與待檢測三元組進行對比,判斷應用程序是否越
    界收集個人信息,包括:
    [0034]從待檢測三元組中提取應用程序所聲明的必要個人信息,并將待檢測三元組中的必要個人信息作為第一集合;
    [0035]將合規三元組中的必要個人信息作為第二集合;
    [0036]判斷第一集合是否為第二集合的子集,若第一集合為第二集合的子集,則所述應用程序未越界收集個人信息;若第一集合不是第二集合的子集,則所述應用程序越界收集個人信息。
    [0037]本專利技術的有益效果是:
    [0038](1)本專利技術的方法利用隱私政策文本中隱含的結構特征,根據隱私政策文本中的序號和小標題實現從非結構化文本到結構化數據的自動化轉換,摒棄了當前大多使用深度學習模型將隱私政策文本中大段文本或句子進行分類的方法;本專利技術在將隱私政策文本轉換為結構化數據后,通過更高效的向量相似度計算方法,僅需對XML樹中節點的title屬性值進行相似度計算、實現對隱私政策文本中的小標題進行語義理解,便可將隱私政策文本進行分塊,實現高效的結構解析與信息提取,極大提高了對隱私政策文本的解析速度和準確率,提高了冗長的隱私政策文本的可讀性;
    [0039](2)本專利技術結合本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種應用程序越界收集個人信息行為的判定方法,其特征在于,包括:S100.獲取原始語料庫,并基于所述原始語料庫訓練Word2vector詞嵌入模型,所述原始語料庫為應用程序市場中各應用程序的隱私政策文本;S200.基于第一信息進行訓練得到用于識別命名實體的命名實體識別模型,所述第一信息為所述原始語料庫中關于個人信息收集與使用的描述內容,所述命名實體包括業務內容和個人信息類別;S300.利用預先標注的數據集訓練文本分類模型;S400.根據預設規則確定每種類型的應用程序的基本業務和必要個人信息,并形成各類應用程序的合規三元組,所述合規三元組包括應用程序類型、基本業務和必要個人信息。S500.提取待檢測隱私政策文本中的序號和小標題作為節點,形成所述待檢測隱私政策文本的XML樹結構,其中,所述序號作為所述XML樹結構中節點的mark屬性值,所述小標題作為XML樹結構中節點的title屬性值;S600.利用所述Word2vector詞嵌入模型計算所述XML樹中節點的title屬性值與預定義文本的相似度,若相似度大于閾值,則將該節點中的文本內容作為第二信息;S700.利用所述命名實體識別模型從所述第二信息中提取出業務內容和個人信息類別,并形成二元組,所述二元組包括業務內容和個人信息類別;S800.獲取待檢測隱私政策文本中包括所述業務內容的描述文本,基于所述描述文本、利用文本分類模型預測所述業務內容的業務種類,并形成待檢測三元組,所述待檢測三元組包括業務內容、業務種類和個人信息類別;S900.根據待檢測應用程序的類型獲取對應的合規三元組,并將獲取到的合規三元組與待檢測三元組進行對比,判斷應用程序是否越界收集個人信息。2.根據權利要求1所述的一種應用程序越界收集個人信息行為的判定方法,其特征在于,所述命名實體識別模型為LSTM+CRF模型、BiLSTM+CRF模型或ID
    ?
    CNN+CRF模型。3.根據權利要求1所述的一種應用程序越界收集個人信息行為的判定方法,其特征在于,所述文本分類模型為SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。4.根據權利要求1所述的一種應用程序越界收集個人信息行為的判定方法,其特征在于,利用預先標注的數據集訓練文本分類模型,包括:S310.獲取基本業務的描述語句樣本和附加業務的描述語句樣本;S320.對所述描述語句樣本進行第一預處理;S330.將經第一預處理后的描述語句樣本輸入TextCNN模型,所述TextCNN模型的輸出為所述描述語句樣本屬于基本業務和附加業務兩個類別的概率向量...

    【專利技術屬性】
    技術研發人員:黃誠陳俊任王子巖
    申請(專利權)人:四川大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲爆乳大丰满无码专区| 免费无码中文字幕A级毛片| 在线观看片免费人成视频无码| 国产精品JIZZ在线观看无码| 国产在线无码视频一区二区三区| 99久久人妻无码精品系列| 中文字幕无码毛片免费看| 亚洲精品无码不卡在线播放| 青青草无码免费一二三区| 日韩精品成人无码专区免费| 影音先锋中文无码一区| 西西4444www大胆无码| 亚洲av永久无码精品三区在线4| 亚洲爆乳无码一区二区三区| 精品无码国产自产拍在线观看蜜| 麻豆人妻少妇精品无码专区| 亚洲色av性色在线观无码| 久久激情亚洲精品无码?V| 无码人妻av一区二区三区蜜臀 | 国产乱人伦无无码视频试看| 亚洲av无码乱码国产精品| 成人免费无遮挡无码黄漫视频| 亚洲国产精品无码久久久不卡 | 一本色道无码不卡在线观看| 丰满亚洲大尺度无码无码专线| 亚洲AV无码乱码麻豆精品国产| 久久人妻内射无码一区三区| 宅男在线国产精品无码| 无码专区一va亚洲v专区在线 | 成人无码Av片在线观看| 乱人伦人妻中文字幕无码| 久久精品亚洲中文字幕无码麻豆| 亚洲av无码国产精品色午夜字幕 | 国产午夜精品无码| 中文无码乱人伦中文视频在线V| 国产人成无码视频在线观看| 下载天堂国产AV成人无码精品网站| 精品人妻无码专区中文字幕| 亚洲AV无码一区二三区 | 国产精品毛片无码| 国产精品va在线观看无码|