• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種特征生成方法及系統技術方案

    技術編號:15437029 閱讀:93 留言:0更新日期:2017-05-25 19:14
    本申請涉及互聯網技術領域,尤其涉及一種特征生成方法及系統,用以解決在進行大量新生成特征的適應度評價時,通常存在大數據處理能力不足,評價效率較低的問題;本申請實施例中,整個迭代進程包括:由選擇的一個子節點執行的初始化任務、由多個子節點并行執行的每一代適應度評價任務、由選擇的一個子節點執行的迭代任務、以及在執行完全部的適應度評價任務后執行的輸出任務;主節點負責進行整個迭代進程的協調調度。由于每一代適應度評價任務可以由多個子節點并行執行,因此提高了整個特征生成進程的效率;主節點采用編碼個體的形式向執行適應度評價任務的子節點指示需要評價的特征表達式,從而可以減少數據傳輸量。

    Method and system for generating features

    The invention relates to the field of Internet technology, especially relates to a system and method for feature generation, in order to solve the problems in a new generation of fitness evaluation, there is big data processing capability, evaluation of the problem of low efficiency; the embodiment of the invention, the iterative process includes execution by a sub node selection the initialization tasks, comprising a plurality of sub nodes in parallel each generation implementation of the fitness evaluation task, task execution by a sub iteration, node selection and execution in all the evaluation tasks after the implementation of adaptive output tasks; coordinated scheduling master node is responsible for the whole iterative process. Because each generation of fitness evaluation tasks can be executed in parallel by sub nodes, thus improving the efficiency of the feature generation process; the main node encoding individual form to the executive to the child node evaluation task instructions feature expression needs assessment, which can reduce the amount of data transmission.

    【技術實現步驟摘要】
    一種特征生成方法及系統
    本申請涉及互聯網
    ,尤其涉及一種特征生成方法及系統。
    技術介紹
    隨著互聯網信息技術的發展,通過互聯網為用戶提供的業務服務的種類越來越多,如何更好地為用戶提供業務服務是互聯網行業中的一個重要問題。模型分類能夠有效提升業務服務水平,比如,對用戶的收入水平進行分類,將用戶的收入水平分為高、中、低三個類別,可以基于用戶收入水平類別的不同為用戶提供不同的信息推介服務。在基于模型進行分類時,需要輸入多個特征,良好的特征集合能夠有效提升模型分類的準確率。在很多情況下,單個特征所蘊含的信息量有限,而通過特征組合變換之后能夠產生顯著的分類性能。因此,可以基于原始特征集合生成一些新的特征,使這些新的特征能夠反映原始特征集合隱性的分類能力。同時,為了避免變換生成的大量無效或冗余的特征對模型分類準確率的影響,需要對新生成的特征進行適應度評價。目前,在進行大量新生成特征的適應度評價時,通常存在大數據處理能力不足,評價效率較低的問題,從而限制了對新生成特征的進一步優化,導致無法及時有效地得到有價值的特征。
    技術實現思路
    本申請實施例提供一種特征生成方法及系統,用以解決在進行大量新生成特征的適應度評價時,通常存在大數據處理能力不足,評價效率較低的問題,還提供了一種有效得到高價值新特征的特征生成算法。本申請實施例提供一種特征生成方法,包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;步驟C、執行迭代任務的子節點基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;步驟D、所述主節點基于所述編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;步驟E、執行適應度評價任務的子節點針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點;將N加1,返回步驟A。可選地,所述編碼個體為采用深度優先編碼DFP的方式生成的;步驟C中,執行迭代任務的子節點基于第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,包括:步驟C1、所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式;步驟C2、從所述m個特征表達式中隨機選擇兩個特征表達式,按照預設的交叉概率,從這兩個特征表達式中分別選擇一個子表達式進行交叉,保留隨機交叉后的一個特征表達式;重復該步驟m-n次,得到保留的隨機交叉后的m-n個特征表達式;步驟C3、按照預設的變異概率,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,得到隨機變異后的m-n個特征表達式;步驟C4、將所述適應度最高的n個特征表達式和所述隨機變異處理后的m-n個特征表達式所分別對應的編碼個體,確定為第N+1代適應度評價任務中包含的m個編碼個體。可選地,步驟C3中,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,包括:針對任一特征表達式,從以下處理方式中隨機選擇一種進行變異處理:將該特征表達式中的一個單特征節點用一個子表達式代替;所述單特征節點是指該特征表達式中的一個數據或一個算符;將該特征表達式中的一個子表達式縮減為一個單特征節點;將該特征表達式中的一個單特征節點用隨機生成的單特征節點代替;將該特征表達式用隨機生成的新的特征表達式代替。可選地,在步驟C1中,所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式,包括:若在所述m個特征表達式中,存在適應度相同的特征表達式,則剔除冗余的k個特征表達式,以使得在剩余的特征表達式中不存在適應度相同的特征表達式;在所述剩余的特征表達式中,選擇適應度最高的n個特征表達式,并將步驟B2~B4中的m減k。可選地,在步驟A之前,還包括:所述主節點在接收到特征生成任務后,從數據服務器上獲取執行所述特征生成任務所需的數據文件,并將獲取的數據文件傳輸給集群系統中的每臺集群計算機器;在步驟E中,所述執行適應度評價任務的子節點進行適應度計算,包括:所述執行適應度評價任務的子節點從所在集群計算機器中讀取被分配的適應度評價任務中的編碼個體所指示的特征數據,并將讀取的特征數據代入該編碼個體對應的特征表達式,通過調用所在集群計算機器上的適應度評價函數,對代入特征數據后的特征表達式進行適應度計算。可選地,在步驟A之前,還包括:主節點向選擇的一子節點下發該主節點接收的特征生成任務所對應的初始化任務;執行初始化任務的子節點通過調用所在集群計算機器上的初始化函數,隨機生成包含多個初始化的編碼個體的編碼文件;所述主節點基于所述多個初始化的編碼個體,生成多個第一代適應度評價任務,并將生成的每一個第一代適應度評價任務分別下發給不同的子節點。可選地,在步驟B中,所述執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式,包括:所述執行輸出任務的子節點通過調用所述主節點存儲在文件系統中的所述第N代適應度評價任務的評價結果,確定適應度最高的n個特征表達式,并輸出反饋給用戶的、用于指示所述適應度最高的n個特征表達式的特征生成結果報告,以及輸出用于后續調用的該適應度最高的n個特征表達式所對應的特征數據。本申請實施例提供一種特征生成系統,包括:主節點,用于在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;還用于,基于執行迭代任務的子節點生成的編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;執行輸出任務的子節點,用于基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;執行迭代任務的子節點,用于基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;執行適應度評價任務的子節點,用于針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點。采用上述方法或系統,由于每一代適應度評價任務可以由多個子節點并行執行,因此提高了適應度評價效率,也進而提高了整個特征生成進程的效率,保本文檔來自技高網...
    一種特征生成方法及系統

    【技術保護點】
    一種特征生成方法,其特征在于,該方法包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;步驟C、執行迭代任務的子節點基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;步驟D、所述主節點基于所述編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;步驟E、執行適應度評價任務的子節點針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點;將N加1,返回步驟A。

    【技術特征摘要】
    1.一種特征生成方法,其特征在于,該方法包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;步驟C、執行迭代任務的子節點基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;步驟D、所述主節點基于所述編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;步驟E、執行適應度評價任務的子節點針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點;將N加1,返回步驟A。2.如權利要求1所述的方法,其特征在于,所述編碼個體為采用深度優先編碼DFP的方式生成的;步驟C中,執行迭代任務的子節點基于第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,包括:步驟C1、所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式;步驟C2、從所述m個特征表達式中隨機選擇兩個特征表達式,按照預設的交叉概率,從這兩個特征表達式中分別選擇一個子表達式進行交叉,保留隨機交叉后的一個特征表達式;重復該步驟m-n次,得到保留的隨機交叉后的m-n個特征表達式;步驟C3、按照預設的變異概率,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,得到隨機變異后的m-n個特征表達式;步驟C4、將所述適應度最高的n個特征表達式和所述隨機變異處理后的m-n個特征表達式所分別對應的編碼個體,確定為第N+1代適應度評價任務中包含的m個編碼個體。3.如權利要求2所述的方法,其特征在于,步驟C3中,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,包括:針對該m-n個特征表達式中的任一特征表達式,從以下處理方式中隨機選擇一種進行變異處理:將該特征表達式中的一個單特征節點用一個子表達式代替;所述單特征節點是指該特征表達式中的一個數據或一個算符;將該特征表達式中的一個子表達式縮減為一個單特征節點;將該特征表達式中的一個單特征節點用隨機生成的單特征節點代替;將該特征表達式用隨機生成的新的特征表達式代替。4.如權利要求2或3所述的方法,其特征在于,在步驟C1中,所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式,包括:若在所述m個特征表達式中,存在適應度相同的特征表達式,則剔除冗余的k個特征表達式,以使得在剩余的特征表達式中不存在適應度相同的特征表達式;在所述剩余的特征表達式中,選擇適應度最高的n個特征表達式,并將步驟B2~B4中的m減k。5.如權利要求1所述的方法,其特征在于,在步驟A之前,還包括:所述主節點在接收到特征生成任務后,從數據服務器上獲取執行所述特征生成任務所需的數據文件,并將獲取的數據文件傳輸給集群系統中的每臺集群計算機器;在步驟E中,所述執行適應度評價任務的子節點進行適應度計算,包括:所述執行適應度評價任務的子節點從所在集群計算機器中讀取被分配的適應度評價任務中的編碼個體所指示的特征數據,并將讀取的特征數據代入該編碼個體對應的特征表達式,通過調用所在集群計算機器上的適應度評價函數,對代入特征數據后的特征表達式進行適應度計算。6.如權利要求1所述的方法,其特征在于,在步驟A之前,還包括:主節點向選擇的一子節點下發該主節點接收的特征生成任務所對應的初始化任務;執行初始化任務的子節點通過調用所在集群計算機器上的初始化函數,隨機生成包含多個初始化的編碼個體的編碼文件;所述主節點基于所述多個初始化的編碼個體,生成多個第一代適應度評價任務,并將生成的每一個第一代適應度評價任務分別下發給不同的子節點。7.如權利要求1所述的方法,其特征在于,在步驟B中,所述執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式,包括:所述執行輸出任務的子節點通過調用所述主節點存儲在文件系統中的所述第N代適應度評價任務的評價結果,確定適應度最...

    【專利技術屬性】
    技術研發人員:馮天恒王雯晉喬彥輝王學慶周勝臣方煒超婁鵬
    申請(專利權)人:阿里巴巴集團控股有限公司
    類型:發明
    國別省市:開曼群島,KY

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码乱码麻豆精品国产| 亚洲中文字幕无码爆乳| 久久久久亚洲AV无码去区首| 国产精品无码一区二区在线| 亚洲成?v人片天堂网无码| 玖玖资源站无码专区| 亚洲人成无码久久电影网站| 亚洲av永久无码精品三区在线4| 久久久久久99av无码免费网站 | 色综合无码AV网站| 中文无码成人免费视频在线观看| 中文字幕无码高清晰| 亚洲AV无码精品色午夜果冻不卡 | 粉嫩大学生无套内射无码卡视频 | 久久国产精品无码HDAV| 免费无码国产在线观国内自拍中文字幕 | 亚洲av永久无码| 国产免费无码AV片在线观看不卡 | 国产成人AV片无码免费| 亚洲a无码综合a国产av中文| 久久无码人妻一区二区三区午夜| 久久青青草原亚洲av无码| 国产免费AV片无码永久免费| 亚洲精品无码av片| 精品国产v无码大片在线观看| 亚洲av中文无码乱人伦在线咪咕 | 亚洲AV无码资源在线观看| 日韩免费无码一区二区三区| 国产成人无码一区二区三区| 亚洲中文字幕无码永久在线| 国产成人麻豆亚洲综合无码精品| 亚洲中文字幕伊人久久无码| 久久天堂av综合色无码专区 | 亚洲日韩精品A∨片无码 | 久久青草亚洲AV无码麻豆| 亚洲一区二区三区AV无码| 中文字幕丰满乱子伦无码专区| 国产成人无码a区在线视频 | 亚洲AV无码一区二区乱子仑 | 无码粉嫩小泬无套在线观看| 无码精品国产dvd在线观看9久 |