System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及大數(shù)據(jù)處理及金融科技,尤其是涉及到一種基于大模型的數(shù)據(jù)聚類方法、裝置、介質(zhì)及計(jì)算機(jī)設(shè)備。
技術(shù)介紹
1、聚類算法作為一種重要的無監(jiān)督學(xué)習(xí)方法,目前已廣泛應(yīng)用于保險(xiǎn)系統(tǒng)、銀行系統(tǒng)、交易系統(tǒng)、訂單系統(tǒng)等多個(gè)領(lǐng)域的大數(shù)據(jù)處理領(lǐng)域中。聚類算法的核心目標(biāo)是將一組數(shù)據(jù)自動(dòng)劃分為多個(gè)類別,以使得同一類別內(nèi)的數(shù)據(jù)具有較高的相似度,而不同類別間的數(shù)據(jù)相似度較低。目前,傳統(tǒng)的聚類方法如k-means、層次聚類等方法能夠提供數(shù)據(jù)聚類的一般解決方案,但在處理復(fù)雜特征空間和大規(guī)模數(shù)據(jù)集時(shí)會(huì)面臨計(jì)算效率低下以及結(jié)果準(zhǔn)確性不足等問題。
2、近年來,大模型(大型語言模型)因其強(qiáng)大的自然語言理解和生成能力,已逐步應(yīng)用于聚類算法中。利用大模型技術(shù)進(jìn)行聚類的方法主要依賴于提示詞技術(shù),即通過設(shè)計(jì)合理的提示詞,使大模型能夠理解用戶的輸入意圖,并生成符合要求的聚類結(jié)果。這種方法不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的自動(dòng)分組,而且能夠根據(jù)數(shù)據(jù)的特征自動(dòng)生成具有描述性的組名,從而能夠提高聚類結(jié)果的可解釋性。
3、然而,為了使大模型能夠充分理解并處理整個(gè)數(shù)據(jù)集,在聚類時(shí)往往需要一次性輸入所有相關(guān)數(shù)據(jù),這對(duì)于擁有數(shù)萬乃至更多條目的數(shù)據(jù)集來說,即便按照每條數(shù)據(jù)僅占用幾十個(gè)字符計(jì)算,所需處理的數(shù)據(jù)量也可能輕易超過大多數(shù)現(xiàn)有大模型所支持的最大上下文窗口限制。另外,即便能夠克服輸入長度的限制,也需要消耗極大的計(jì)算成本,并且,聚類結(jié)果的準(zhǔn)確度往往也較低。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)實(shí)施例提供了一種基于大模型的數(shù)據(jù)聚類方法
2、根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種基于大模型的數(shù)據(jù)聚類方法,該方法包括:
3、獲取待處理數(shù)據(jù),并對(duì)所述待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù);
4、通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱;
5、通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱;
6、通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果。
7、根據(jù)本申請(qǐng)的另一方面,提供了一種基于大模型的數(shù)據(jù)聚類裝置,該裝置包括:
8、數(shù)據(jù)采樣模塊,用于獲取待處理數(shù)據(jù),并對(duì)所述待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù);
9、數(shù)據(jù)聚類模塊,用于通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱;
10、數(shù)據(jù)降維模塊,用于通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱;
11、數(shù)據(jù)分類模塊,用于通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果。
12、依據(jù)本申請(qǐng)又一個(gè)方面,提供了一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于大模型的數(shù)據(jù)聚類方法。
13、依據(jù)本申請(qǐng)?jiān)僖粋€(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述基于大模型的數(shù)據(jù)聚類方法。
14、借由上述技術(shù)方案,本申請(qǐng)實(shí)施例提供的一種基于大模型的數(shù)據(jù)聚類方法及裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備,首先獲取待處理數(shù)據(jù),并對(duì)待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù),然后通過預(yù)訓(xùn)練的大模型,分別對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,其中,初始類別可以代表各組樣本數(shù)據(jù)的初始聚類結(jié)果,進(jìn)而通過大模型對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,其中,目標(biāo)類別名稱可以代表多組樣本數(shù)據(jù)共同的聚類結(jié)果,最后通過多個(gè)目標(biāo)類別名稱,逐一對(duì)待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到待處理數(shù)據(jù)的聚類結(jié)果。上述方法通過將大數(shù)據(jù)量的待處理數(shù)據(jù)的聚類任務(wù)轉(zhuǎn)換為對(duì)待處理數(shù)據(jù)中每個(gè)數(shù)據(jù)的分類任務(wù),一方面可以避免輸入數(shù)據(jù)超過大模型所支持的最大上下文窗口限制,以此降低聚類任務(wù)對(duì)大模型的要求,另一方面可以通過多次簡(jiǎn)單調(diào)用的方式,降低大模型的計(jì)算資源消耗,提升聚類結(jié)果的準(zhǔn)確性。
15、上述說明僅是本申請(qǐng)技術(shù)方案的概述,為了能夠更清楚了解本申請(qǐng)的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請(qǐng)的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請(qǐng)的具體實(shí)施方式。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于大模型的數(shù)據(jù)聚類方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述輸出所述合并后的預(yù)選類別名稱,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述通過所述大模型中設(shè)定的提示詞,對(duì)輸入的數(shù)據(jù)進(jìn)行語義解析,并根據(jù)提示詞中設(shè)置的類別標(biāo)號(hào)及其對(duì)應(yīng)的目標(biāo)類別名稱,確定數(shù)據(jù)對(duì)應(yīng)的目標(biāo)類別名稱和類別標(biāo)號(hào),包括:
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,在所述確定數(shù)據(jù)對(duì)應(yīng)的目標(biāo)類別名稱和類別標(biāo)號(hào)之后,所述方法還包括:
8.一種基于
9.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種基于大模型的數(shù)據(jù)聚類方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述輸出所述合并后的預(yù)選類別名稱,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:曹壹臻,
申請(qǐng)(專利權(quán))人:平安國際融資租賃有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。