本發明專利技術公開了一種基于分布式系統的機器學習程序運行的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源;根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數;將所述機器學習程序以及所述啟動參數發送給對應的服務器節點,使得所述服務器節點啟動運行所述機器學習程序。能夠根據用戶提交的運行請求自動獲取資源,并根據獲取資源的服務器節點的端口信息和標識信息,生成啟動參數,則可通過該啟動參數對應的啟動服務器節點自動運行機器學習程序,提高了機器學習程序運行的效率。
【技術實現步驟摘要】
一種基于分布式系統的機器學習程序運行的方法和裝置
本專利技術涉及計算機
,尤其涉及一種基于分布式系統的機器學習程序運行的方法和裝置。
技術介紹
如今,在很多領域都有應用到機器學習或者深度學習,例如圖像識別、語音識別、自動駕駛等領域。目前比較流行的深度學習框架有Tensorflow、Caffe等,使用這些框架進行分布式處理時,需要人為登錄到每臺服務器,將待運行的機器學習程序拷貝到該服務器中,以及人工啟動程序在該服務器中運行,進而存在運行效率低的問題。
技術實現思路
有鑒于此,本專利技術實施例提供一種基于分布式系統的機器學習程序運行的方法和裝置,能夠根據用戶提交的運行請求自動獲取資源,并根據獲取資源的服務器節點的端口信息和標識信息,生成啟動參數,則可通過該啟動參數對應的啟動服務器節點自動運行機器學習程序,提高了機器學習程序運行的效率。為實現上述目的,根據本專利技術實施例的一個方面,提供了一種的基于分布式系統的機器學習程序運行方法。本專利技術實施例的基于分布式系統的機器學習程序運行的方法包括:根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源;根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數;將所述機器學習程序以及所述啟動參數發送給對應的服務器節點,使得所述服務器節點啟動運行所述機器學習程序。可選地,根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源的步驟包括:根據機器學習程序的運行請求,確定出運行所述機器學習程序所需的資源;向分布式系統的資源管理器申請所需的資源;以及,獲取所述資源管理器返回的資源。可選地,在獲取分布式系統中用于運行所述機器學習程序的資源之后,以及在根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數之前,還包括:確認獲取的資源中服務器節點已就緒;向所述資源中服務器節點的任務管理器發送啟動信息,使得所述任務管理器綁定其服務器節點的端口。可選地,在將所述機器學習程序以及所述啟動參數發送給對應的服務器節點之后,還包括:接收所述服務器節點返回的心跳信息;根據所述心跳信息,判斷所述服務器節點中是否存在異常服務器節點;如果存在,則根據該異常服務器節點的端口信息和標識信息生成重啟參數,將所述重啟參數發送給所述異常服務器。可選地,在將所述機器學習程序以及所述啟動參數發送給對應的服務器節點之后,還包括:獲取所有服務器節點的運行數據;根據預設的存儲路徑存儲所述運行數據。為實現上述目的,根據本專利技術實施例的另一個方面,提供了一種基于分布式系統的機器學習程序運行的裝置。本專利技術實施例的基于分布式系統的機器學習程序運行的裝置包括:資源獲取模塊,用于根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源;啟動參數生成模塊,用于根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數;發送模塊,用于將所述機器學習程序以及所述啟動參數發送給對應的服務器節點,使得所述服務器節點啟動運行所述機器學習程序。可選地,所述資源獲取模塊,還用于根據機器學習程序的運行請求,確定出運行所述機器學習程序所需的資源;向分布式系統的資源管理器申請所需的資源;以及,獲取所述資源管理器返回的資源。可選地,本專利技術實施例的基于分布式系統的機器學習程序運行的裝置還包括:節點任務管理器啟動模塊,用于確認獲取的資源中服務器節點已就緒;向所述資源中服務器節點的任務管理器發送啟動信息,使得所述任務管理器綁定其服務器節點的端口。可選地,本專利技術實施例的基于分布式系統的機器學習程序運行的裝置還包括:容錯模塊,用于接收所述服務器節點返回的心跳信息;根據所述心跳信息,判斷所述服務器節點中是否存在異常服務器節點;如果存在,則啟動參數生成模塊根據該異常服務器節點的端口信息和標識信息生成重啟參數,發送模塊將所述重啟參數發送給所述異常服務器。可選地,本專利技術實施例的基于分布式系統的機器學習程序運行的裝置還包括:存儲模塊,用于獲取所有服務器節點的運行數據;根據預設的存儲路徑存儲所述運行數據。為實現上述目的,根據本專利技術實施例的再一個方面,提供了一種基于分布式系統的機器學習程序運行的電子設備。本專利技術實施例的基于分布式系統的機器學習程序運行的電子設備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現上述任一項的基于分布式系統的機器學習程序運行的方法。為實現上述目的,根據本專利技術實施例的再一個方面,提供了一種計算機可讀介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現上述任一項的基于分布式系統的機器學習程序運行的方法。上述專利技術中的一個實施例具有如下優點或有益效果:能夠根據用戶的運行請求申請到資源,并根據獲取資源的服務器節點的端口信息和標識信息,生成啟動參數,則可通過該啟動參數對應的啟動服務器節點自動運行機器學習程序。進而,提高了系統運行效率。并且,對獲取到的資源進行鎖定,避免了在多用戶的情況下,發送資源沖突的問題。本專利技術實施例還能夠根據各個服務器節點返回的心跳數據對異常節點進行監控,如果出現異常節點,則可自動容錯,提高了機器學習程序的穩定性和成功率。對于運行的數據進行存儲,便于快速查詢機器學習程序運行時的狀態與日志,也可便于對歷史運行的任務進行查詢。上述的非慣用的可選方式所具有的進一步效果將在下文中結合具體實施方式加以說明。附圖說明附圖用于更好地理解本專利技術,不構成對本專利技術的不當限定。其中:圖1是根據本專利技術實施例的基于分布式系統的機器學習程序運行的方法的主要流程的示意圖;圖2是根據本專利技術實施例的實現Hadoop集群運行深度學習程序的系統的示意圖;圖3是根據本專利技術實施例的端口預留過程的示意圖;圖4是根據本專利技術實施例的容錯過程的示意圖;圖5是根據本專利技術實施例的歷史信息索引頁的示意圖;圖6是根據本專利技術實施例的歷史信息詳情頁的示意圖;圖7是根據本專利技術實施例基于分布式系統的機器學習程序運行的裝置的主要模塊的示意圖;圖8是本專利技術實施例可以應用于其中的示例性系統架構圖;圖9是適于用來實現本專利技術實施例的終端設備或服務器的計算機系統的結構示意圖。具體實施方式以下結合附圖對本專利技術的示范性實施例做出說明,其中包括本專利技術實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本專利技術的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。圖1是根據本專利技術實施例的基于分布式系統的機器學習程序運行的方法的主要流程的示意圖,如圖1所示,本專利技術實施例的基于分布式系統的機器學習程序運行的方法主要包括:步驟S101:根據機器學習程序的運行請求,獲取分布式系統中用于運行機器學習程序的資源。具體的,根據機器學習程序的運行請求,確定出運行機器學習程序所需的資源;向分布式系統的資源管理器申請所需的資源;以及,獲取資源管理器返回的資源。其中,該運行請求中包括該機器學習程序的相關參數,該參數至少包括需要的參數服務器parameterserver的個數和需要的執行服務器worker的個數,該參數還可以包括運行系統資源管理器需要的內存量、作業名、是否啟用t本文檔來自技高網...
【技術保護點】
1.一種基于分布式系統的機器學習程序運行的方法,其特征在于,包括:根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源;根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數;將所述機器學習程序以及所述啟動參數發送給對應的服務器節點,使得所述服務器節點啟動運行所述機器學習程序。
【技術特征摘要】
1.一種基于分布式系統的機器學習程序運行的方法,其特征在于,包括:根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源;根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數;將所述機器學習程序以及所述啟動參數發送給對應的服務器節點,使得所述服務器節點啟動運行所述機器學習程序。2.根據權利要求1所述的方法,其特征在于,根據機器學習程序的運行請求,獲取分布式系統中用于運行所述機器學習程序的資源的步驟包括:根據機器學習程序的運行請求,確定出運行所述機器學習程序所需的資源;向分布式系統的資源管理器申請所需的資源;以及,獲取所述資源管理器返回的資源。3.根據權利要求1所述的方法,其特征在于,在獲取分布式系統中用于運行所述機器學習程序的資源之后,以及在根據所述資源中服務器節點的端口信息和標識信息,生成啟動參數之前,還包括:確認獲取的資源中服務器節點已就緒;向所述資源中服務器節點的任務管理器發送啟動信息,使得所述任務管理器綁定其服務器節點的端口。4.根據權利要求1所述的方法,其特征在于,在將所述機器學習程序以及所述啟動參數發送給對應的服務器節點之后,還包括:接收所述服務器節點返回的心跳信息;根據所述心跳信息,判斷所述服務器節點中是否存在異常服務器節點;如果存在,則根據該異常服務器節點的端口信息和標識信息生成重啟參數,將所述重啟參數發送給所述異常服務器。5.根據權利要求1所述的方法,其特征在于,在將所述機器學習程序以及所述啟動參數發送給對應的服務器節點之后,還包括:獲取所有服務器節點的運行數據;根據預設的存儲路徑存儲所述運行數據。6.一種基于分布式系統的機器學習程序運行的裝置,其特征在于,包括:資源獲取模塊,用于根據...
【專利技術屬性】
技術研發人員:吳怡燃,
申請(專利權)人:北京京東尚科信息技術有限公司,北京京東世紀貿易有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。