一種大模型動態附加微調模型的部署方法技術

技術編號：44385115 閱讀：4 留言：0更新日期：2025-02-25 10:00

本發明專利技術公開了一種大模型動態附加微調模型的部署方法，步驟為：S1：新增微調模型權重；S2：加載權重，進行微調后的模型推理；S3：刪除微調模型權重；S4：索引模型，返回結果。本發明專利技術通過一種大模型動態附加微調模型的部署方法，能夠使用低秩矩陣作為增量配合大模型擬合特化的應用場景數據，降低需要訓練成本；根據啟動時指定的LoRA權重，在調用模型推理服務時調用LoRA微調模型；在啟動后通過調用接口動態地新增或者刪除LoRA；增加了模型適配LoRA的靈活性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及lora微調模型領域，尤其涉及一種大模型動態附加微調模型的部署方法。

技術介紹

1、在人工智能領域，特別是針對大語言模型等任務的大規模模型訓練、使用、部署過程中，模型的參數量對于模型的擬合能力，訓練后的語言能力起著至關重要的作用。

2、隨著模型參數量的增加，大語言模型對顯存占用的需求量、以及訓練相同數據集所需要的時間、算力成本日益增加，以及模型的推理速度變慢，然而在現有技術中，關于如何高效地利用顯卡，降低訓練成本仍然存在以下問題：

3、1.?部署成本問題：當前很多高性能大語言模型參數量呈指數式上升，部署成本越發巨大；

4、2.?模型處理速度：參數量的增加導致模型推理速度變慢，難以同時處理大量請求；

5、3.?微調部署問題：對于每一個微調過的模型，重新部署都需要占用原模型相同大小的顯存。

技術實現思路

1、本專利技術的目的在于，針對上述的技術問題，提出一種大模型動態附加微調模型的部署方法。

2、一種大模型動態附加微調模型的部署方法，包括以下子步驟：

3、s1：新增微調模型權重；

4、s2：加載權重，進行微調后的模型推理；

5、s3：刪除微調模型權重；

6、s4：索引模型，返回結果。

7、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s1包括以下子步驟：

8、s11：通過接口傳入lora名稱、權重的本地路徑集合；

9、s

10、s13：初始化記錄重名、新增成功、路徑錯誤的列表；

11、s14：獲取當前已登記lora的列表和lora名稱的列表；

12、s15：去掉重名lora，避免模型調用沖突；

13、s16：遍歷去重的lora集，進行校驗和登記；

14、s17：根據記錄重名、新增成功、路徑錯誤的列表拼接信息，返回結果。

15、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s15包括以下子步驟：

16、s151：遍歷當前所有lora名稱列表，去掉傳入lora集中與已登記lora名稱列表重名項；

17、s152：將重名lora名稱記錄進重名列表。

18、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s16以下子步驟：

19、校驗指定路徑文件夾下是否存在深度學習框架可加載的權重文件：

20、若存在，將lora登記，記錄入新增成功列表；

21、若不存在，記錄入新增失敗列表。

22、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s2以下子步驟：

23、s21：將lora添加進lora列表后，調用模型服務時指定模型名為傳入lora權重名；

24、s22：使模型索引lora名指向lora路徑，加載權重，進行微調后的模型推理。

25、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s3包括以下子步驟：

26、s31：通過接口傳入lora名稱集合；

27、s32：分別遍歷獲取已有模型對話，補全服務的實施例；

28、s33：初始化刪除不存在項的列表；

29、s34：獲取當前已登記lora的列表和lora名稱的列表；

30、s35：刪除lora，為后續運行釋放占用資源；

31、s36：根據成功刪除的信息和不存在項列表拼接信息，返回結果。

32、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s35以下子步驟：

33、遍歷當前所有lora名稱列表，刪除與傳入lora集中與已登記lora名稱中對應項：

34、若存在，錄入已刪除lora項列表；

35、若不存在，錄入不存在項的列表。

36、進一步的，一種大模型動態附加微調模型的部署方法，所述步驟s4以下子步驟：

37、s41：將lora列表中指定lora列后，調用模型服務時指定模型名為傳入lora權重名；

38、s42：在調用模型時索引不到lora名，返回不存在該模型。

39、本專利技術的有益效果：通過一種大模型動態附加微調模型的部署方法，提供了若干高效利用gpu、并發推理、openapi式模型接口調用服務；能夠使用低秩矩陣作為增量配合大模型擬合特化的應用場景數據，降低需要訓練成本；根據啟動時指定的lora權重，在調用模型推理服務時調用lora微調模型；在啟動后通過調用接口動態地新增或者刪除lora；增加了模型適配lora的靈活性。

本文檔來自技高網...

【技術保護點】

1.一種大模型動態附加微調模型的部署方法，其特征在于，包括以下子步驟：

2.根據權利要求1所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S1包括以下子步驟：

3.根據權利要求2所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S15包括以下子步驟：

4.根據權利要求2所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S16以下子步驟：

5.根據權利要求1所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S2以下子步驟：

6.根據權利要求1所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S3包括以下子步驟：

7.根據權利要求6所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S35以下子步驟：

8.根據權利要求1所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟S4以下子步驟：

【技術特征摘要】

1.一種大模型動態附加微調模型的部署方法，其特征在于，包括以下子步驟：

2.根據權利要求1所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟s1包括以下子步驟：

3.根據權利要求2所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟s15包括以下子步驟：

4.根據權利要求2所述的一種大模型動態附加微調模型的部署方法，其特征在于，所述步驟s16以下子步驟：

5....

【專利技術屬性】
技術研發人員：單星航，董文康，于佳欣，裴一龍，平祥凡，曲英哲，張永輝，
申請(專利權)人：啟明信息技術股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術