The invention relates to the field of Internet technology, especially relates to a system and method for feature generation, in order to solve the problems in a new generation of fitness evaluation, there is big data processing capability, evaluation of the problem of low efficiency; the embodiment of the invention, the iterative process includes execution by a sub node selection the initialization tasks, comprising a plurality of sub nodes in parallel each generation implementation of the fitness evaluation task, task execution by a sub iteration, node selection and execution in all the evaluation tasks after the implementation of adaptive output tasks; coordinated scheduling master node is responsible for the whole iterative process. Because each generation of fitness evaluation tasks can be executed in parallel by sub nodes, thus improving the efficiency of the feature generation process; the main node encoding individual form to the executive to the child node evaluation task instructions feature expression needs assessment, which can reduce the amount of data transmission.
【技術實現步驟摘要】
一種特征生成方法及系統
本申請涉及互聯網
,尤其涉及一種特征生成方法及系統。
技術介紹
隨著互聯網信息技術的發展,通過互聯網為用戶提供的業務服務的種類越來越多,如何更好地為用戶提供業務服務是互聯網行業中的一個重要問題。模型分類能夠有效提升業務服務水平,比如,對用戶的收入水平進行分類,將用戶的收入水平分為高、中、低三個類別,可以基于用戶收入水平類別的不同為用戶提供不同的信息推介服務。在基于模型進行分類時,需要輸入多個特征,良好的特征集合能夠有效提升模型分類的準確率。在很多情況下,單個特征所蘊含的信息量有限,而通過特征組合變換之后能夠產生顯著的分類性能。因此,可以基于原始特征集合生成一些新的特征,使這些新的特征能夠反映原始特征集合隱性的分類能力。同時,為了避免變換生成的大量無效或冗余的特征對模型分類準確率的影響,需要對新生成的特征進行適應度評價。目前,在進行大量新生成特征的適應度評價時,通常存在大數據處理能力不足,評價效率較低的問題,從而限制了對新生成特征的進一步優化,導致無法及時有效地得到有價值的特征。
技術實現思路
本申請實施例提供一種特征生成方法及系統,用以解決在進行大量新生成特征的適應度評價時,通常存在大數據處理能力不足,評價效率較低的問題,還提供了一種有效得到高價值新特征的特征生成算法。本申請實施例提供一種特征生成方法,包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評 ...
【技術保護點】
一種特征生成方法,其特征在于,該方法包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;步驟C、執行迭代任務的子節點基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;步驟D、所述主節點基于所述編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;步驟E、執行適應度評價任務的子節點針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點;將N加1,返回步驟A。
【技術特征摘要】
1.一種特征生成方法,其特征在于,該方法包括:步驟A、主節點在接收到執行第N代適應度評價任務的多個子節點發送的評價結果后,若確定N等于最大迭代次數,則向選擇的一子節點下發輸出任務,否則,向選擇的一子節點下發迭代任務;步驟B、執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式;所述適應度最高的n個特征表達式是指按照適應度由高到低排列后的前n個特征表達式;步驟C、執行迭代任務的子節點基于所述第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,并發送給所述主節點;其中,所述多個編碼個體中包含第N代適應度評價任務評價出的適應度最高的n個特征表達式所對應的n個編碼個體;步驟D、所述主節點基于所述編碼文件生成多個第N+1代適應度評價任務,并將每一個第N+1代適應度評價任務分別下發給不同的子節點,其中,每一個適應度評價任務中包含一個編碼個體;步驟E、執行適應度評價任務的子節點針對被分配的適應度評價任務中的編碼個體所指示的特征表達式進行適應度計算,并將計算得到的適應度作為評價結果發送給所述主節點;將N加1,返回步驟A。2.如權利要求1所述的方法,其特征在于,所述編碼個體為采用深度優先編碼DFP的方式生成的;步驟C中,執行迭代任務的子節點基于第N代適應度評價任務的評價結果,生成包含多個編碼個體的編碼文件,包括:步驟C1、所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式;步驟C2、從所述m個特征表達式中隨機選擇兩個特征表達式,按照預設的交叉概率,從這兩個特征表達式中分別選擇一個子表達式進行交叉,保留隨機交叉后的一個特征表達式;重復該步驟m-n次,得到保留的隨機交叉后的m-n個特征表達式;步驟C3、按照預設的變異概率,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,得到隨機變異后的m-n個特征表達式;步驟C4、將所述適應度最高的n個特征表達式和所述隨機變異處理后的m-n個特征表達式所分別對應的編碼個體,確定為第N+1代適應度評價任務中包含的m個編碼個體。3.如權利要求2所述的方法,其特征在于,步驟C3中,對所述保留的隨機交叉后的m-n個特征表達式中的元素進行變異處理,包括:針對該m-n個特征表達式中的任一特征表達式,從以下處理方式中隨機選擇一種進行變異處理:將該特征表達式中的一個單特征節點用一個子表達式代替;所述單特征節點是指該特征表達式中的一個數據或一個算符;將該特征表達式中的一個子表達式縮減為一個單特征節點;將該特征表達式中的一個單特征節點用隨機生成的單特征節點代替;將該特征表達式用隨機生成的新的特征表達式代替。4.如權利要求2或3所述的方法,其特征在于,在步驟C1中,所述執行迭代任務的子節點基于第N代適應度評價任務的評價結果,從第N代適應度評價任務評價的m個特征表達式中選擇適應度最高的n個特征表達式,包括:若在所述m個特征表達式中,存在適應度相同的特征表達式,則剔除冗余的k個特征表達式,以使得在剩余的特征表達式中不存在適應度相同的特征表達式;在所述剩余的特征表達式中,選擇適應度最高的n個特征表達式,并將步驟B2~B4中的m減k。5.如權利要求1所述的方法,其特征在于,在步驟A之前,還包括:所述主節點在接收到特征生成任務后,從數據服務器上獲取執行所述特征生成任務所需的數據文件,并將獲取的數據文件傳輸給集群系統中的每臺集群計算機器;在步驟E中,所述執行適應度評價任務的子節點進行適應度計算,包括:所述執行適應度評價任務的子節點從所在集群計算機器中讀取被分配的適應度評價任務中的編碼個體所指示的特征數據,并將讀取的特征數據代入該編碼個體對應的特征表達式,通過調用所在集群計算機器上的適應度評價函數,對代入特征數據后的特征表達式進行適應度計算。6.如權利要求1所述的方法,其特征在于,在步驟A之前,還包括:主節點向選擇的一子節點下發該主節點接收的特征生成任務所對應的初始化任務;執行初始化任務的子節點通過調用所在集群計算機器上的初始化函數,隨機生成包含多個初始化的編碼個體的編碼文件;所述主節點基于所述多個初始化的編碼個體,生成多個第一代適應度評價任務,并將生成的每一個第一代適應度評價任務分別下發給不同的子節點。7.如權利要求1所述的方法,其特征在于,在步驟B中,所述執行輸出任務的子節點基于第N代適應度評價任務的評價結果,確定并輸出適應度最高的n個特征表達式,包括:所述執行輸出任務的子節點通過調用所述主節點存儲在文件系統中的所述第N代適應度評價任務的評價結果,確定適應度最...
【專利技術屬性】
技術研發人員:馮天恒,王雯晉,喬彥輝,王學慶,周勝臣,方煒超,婁鵬,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:開曼群島,KY
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。