System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲日韩精品A∨片无码,无码人妻精品一区二区三区久久 ,西西午夜无码大胆啪啪国模
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于大模型的數(shù)據(jù)聚類方法、裝置、介質(zhì)及計(jì)算機(jī)設(shè)備制造方法及圖紙

    技術(shù)編號(hào):44382971 閱讀:2 留言:0更新日期:2025-02-25 09:57
    本申請(qǐng)公開了一種基于大模型的數(shù)據(jù)聚類方法、裝置、介質(zhì)及計(jì)算機(jī)設(shè)備,涉及大數(shù)據(jù)處理及金融科技技術(shù)領(lǐng)域。其中方法包括:獲取待處理數(shù)據(jù),并對(duì)待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù);通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱;通過大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱;通過多個(gè)目標(biāo)類別名稱,逐一對(duì)待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到待處理數(shù)據(jù)的聚類結(jié)果。上述方法可以避免輸入數(shù)據(jù)超過大模型所支持的最大上下文窗口限制,并且可以降低大模型的計(jì)算資源消耗,提升聚類結(jié)果的準(zhǔn)確性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請(qǐng)涉及大數(shù)據(jù)處理及金融科技,尤其是涉及到一種基于大模型的數(shù)據(jù)聚類方法、裝置、介質(zhì)及計(jì)算機(jī)設(shè)備


    技術(shù)介紹

    1、聚類算法作為一種重要的無監(jiān)督學(xué)習(xí)方法,目前已廣泛應(yīng)用于保險(xiǎn)系統(tǒng)、銀行系統(tǒng)、交易系統(tǒng)、訂單系統(tǒng)等多個(gè)領(lǐng)域的大數(shù)據(jù)處理領(lǐng)域中。聚類算法的核心目標(biāo)是將一組數(shù)據(jù)自動(dòng)劃分為多個(gè)類別,以使得同一類別內(nèi)的數(shù)據(jù)具有較高的相似度,而不同類別間的數(shù)據(jù)相似度較低。目前,傳統(tǒng)的聚類方法如k-means、層次聚類等方法能夠提供數(shù)據(jù)聚類的一般解決方案,但在處理復(fù)雜特征空間和大規(guī)模數(shù)據(jù)集時(shí)會(huì)面臨計(jì)算效率低下以及結(jié)果準(zhǔn)確性不足等問題。

    2、近年來,大模型(大型語言模型)因其強(qiáng)大的自然語言理解和生成能力,已逐步應(yīng)用于聚類算法中。利用大模型技術(shù)進(jìn)行聚類的方法主要依賴于提示詞技術(shù),即通過設(shè)計(jì)合理的提示詞,使大模型能夠理解用戶的輸入意圖,并生成符合要求的聚類結(jié)果。這種方法不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的自動(dòng)分組,而且能夠根據(jù)數(shù)據(jù)的特征自動(dòng)生成具有描述性的組名,從而能夠提高聚類結(jié)果的可解釋性。

    3、然而,為了使大模型能夠充分理解并處理整個(gè)數(shù)據(jù)集,在聚類時(shí)往往需要一次性輸入所有相關(guān)數(shù)據(jù),這對(duì)于擁有數(shù)萬乃至更多條目的數(shù)據(jù)集來說,即便按照每條數(shù)據(jù)僅占用幾十個(gè)字符計(jì)算,所需處理的數(shù)據(jù)量也可能輕易超過大多數(shù)現(xiàn)有大模型所支持的最大上下文窗口限制。另外,即便能夠克服輸入長度的限制,也需要消耗極大的計(jì)算成本,并且,聚類結(jié)果的準(zhǔn)確度往往也較低。


    技術(shù)實(shí)現(xiàn)思路

    1、有鑒于此,本申請(qǐng)實(shí)施例提供了一種基于大模型的數(shù)據(jù)聚類方法、裝置、介質(zhì)及計(jì)算機(jī)設(shè)備,主要目的在于解決聚類任務(wù)中大模型的數(shù)據(jù)輸入量易超過上下文窗口限制、聚類所需的計(jì)算成本較高以及聚類結(jié)果不準(zhǔn)確的技術(shù)問題。

    2、根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種基于大模型的數(shù)據(jù)聚類方法,該方法包括:

    3、獲取待處理數(shù)據(jù),并對(duì)所述待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù);

    4、通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱;

    5、通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱;

    6、通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果。

    7、根據(jù)本申請(qǐng)的另一方面,提供了一種基于大模型的數(shù)據(jù)聚類裝置,該裝置包括:

    8、數(shù)據(jù)采樣模塊,用于獲取待處理數(shù)據(jù),并對(duì)所述待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù);

    9、數(shù)據(jù)聚類模塊,用于通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱;

    10、數(shù)據(jù)降維模塊,用于通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱;

    11、數(shù)據(jù)分類模塊,用于通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果。

    12、依據(jù)本申請(qǐng)又一個(gè)方面,提供了一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于大模型的數(shù)據(jù)聚類方法。

    13、依據(jù)本申請(qǐng)?jiān)僖粋€(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述基于大模型的數(shù)據(jù)聚類方法。

    14、借由上述技術(shù)方案,本申請(qǐng)實(shí)施例提供的一種基于大模型的數(shù)據(jù)聚類方法及裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備,首先獲取待處理數(shù)據(jù),并對(duì)待處理數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,得到多組樣本數(shù)據(jù),然后通過預(yù)訓(xùn)練的大模型,分別對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,其中,初始類別可以代表各組樣本數(shù)據(jù)的初始聚類結(jié)果,進(jìn)而通過大模型對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,其中,目標(biāo)類別名稱可以代表多組樣本數(shù)據(jù)共同的聚類結(jié)果,最后通過多個(gè)目標(biāo)類別名稱,逐一對(duì)待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到待處理數(shù)據(jù)的聚類結(jié)果。上述方法通過將大數(shù)據(jù)量的待處理數(shù)據(jù)的聚類任務(wù)轉(zhuǎn)換為對(duì)待處理數(shù)據(jù)中每個(gè)數(shù)據(jù)的分類任務(wù),一方面可以避免輸入數(shù)據(jù)超過大模型所支持的最大上下文窗口限制,以此降低聚類任務(wù)對(duì)大模型的要求,另一方面可以通過多次簡(jiǎn)單調(diào)用的方式,降低大模型的計(jì)算資源消耗,提升聚類結(jié)果的準(zhǔn)確性。

    15、上述說明僅是本申請(qǐng)技術(shù)方案的概述,為了能夠更清楚了解本申請(qǐng)的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請(qǐng)的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請(qǐng)的具體實(shí)施方式。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于大模型的數(shù)據(jù)聚類方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述輸出所述合并后的預(yù)選類別名稱,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述通過所述大模型中設(shè)定的提示詞,對(duì)輸入的數(shù)據(jù)進(jìn)行語義解析,并根據(jù)提示詞中設(shè)置的類別標(biāo)號(hào)及其對(duì)應(yīng)的目標(biāo)類別名稱,確定數(shù)據(jù)對(duì)應(yīng)的目標(biāo)類別名稱和類別標(biāo)號(hào),包括:

    7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,在所述確定數(shù)據(jù)對(duì)應(yīng)的目標(biāo)類別名稱和類別標(biāo)號(hào)之后,所述方法還包括:

    8.一種基于大模型的數(shù)據(jù)聚類裝置,其特征在于,所述裝置包括:

    9.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。

    10.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于大模型的數(shù)據(jù)聚類方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)訓(xùn)練的大模型,對(duì)各組樣本數(shù)據(jù)進(jìn)行聚類處理,得到各組樣本數(shù)據(jù)的多個(gè)初始類別名稱,包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述大模型,對(duì)多組樣本數(shù)據(jù)的多個(gè)初始類別名稱進(jìn)行降維處理,得到待處理數(shù)據(jù)的多個(gè)目標(biāo)類別名稱,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述輸出所述合并后的預(yù)選類別名稱,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過多個(gè)目標(biāo)類別名稱,逐一對(duì)所述待處理數(shù)據(jù)中的各個(gè)數(shù)據(jù)進(jìn)行分類處理,得到所述待處理數(shù)據(jù)的聚類結(jié)果,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:曹壹臻
    申請(qǐng)(專利權(quán))人:平安國際融資租賃有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 东京热加勒比无码少妇| 亚洲一级特黄无码片| 国产激情无码一区二区app| 亚洲成a人片在线观看无码专区 | 国产精品一区二区久久精品无码| 精品久久久久久无码中文字幕| 欧洲成人午夜精品无码区久久| 精品久久久久久无码人妻热| 中文字幕无码高清晰| AV无码精品一区二区三区宅噜噜 | 久久久久无码精品| 亚洲爆乳AAA无码专区| 久久精品亚洲中文字幕无码网站 | 无码国产色欲XXXXX视频| 精品无码av无码专区| 亚洲av永久无码精品网址| 久久午夜夜伦鲁鲁片免费无码| 五月天无码在线观看| 性色av无码不卡中文字幕| 无码日本精品XXXXXXXXX| 久久精品aⅴ无码中文字字幕不卡| 亚洲中文字幕无码不卡电影| 中文无码乱人伦中文视频在线V | 亚洲国产精品无码久久青草| 久久亚洲AV成人无码国产最大| 久久久久亚洲AV无码专区首JN| 亚洲AV无码专区亚洲AV伊甸园| 日韩人妻无码精品系列| 久久精品无码专区免费| 精品无码国产污污污免费网站国产| 久久亚洲AV成人无码国产最大| 男男AV纯肉无码免费播放无码| 在线看片无码永久免费视频| av大片在线无码免费| 亚洲午夜无码久久久久小说| 性饥渴少妇AV无码毛片| 精品久久久久久无码人妻| 国产福利电影一区二区三区久久老子无码午夜伦不 | 亚洲人成无码网站在线观看| 中文无码字幕中文有码字幕| 亚洲精品中文字幕无码A片老|