System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及數(shù)據(jù)智能處理領(lǐng)域,特別是涉及一種嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法、設(shè)備、介質(zhì)及產(chǎn)品。
技術(shù)介紹
1、信息檢索(information?retrieval,ir)是計算機科學(xué)中的基礎(chǔ)任務(wù),對于從龐大的數(shù)據(jù)集中獲取滿足特定用戶需求的相關(guān)信息至關(guān)重要。隨著生成式人工智能的興起,ir的重要性愈發(fā)顯著。生成式人工智能模型依賴ir系統(tǒng)實現(xiàn)精確引用,減少生成內(nèi)容中的不準確信息的風(fēng)險。盡管ir在當(dāng)今技術(shù)環(huán)境中的作用不可或缺,現(xiàn)有文獻,特別是在多模態(tài)ir領(lǐng)域,仍然范圍狹窄,主要集中于具有預(yù)定義格式的同質(zhì)檢索場景,通常限于單一領(lǐng)域。例如,mscoco數(shù)據(jù)集通過文本描述檢索flickr圖像,而電子交換系統(tǒng)(electronic?datainterchange?system,edis)通過新聞標題檢索新聞頭條圖片。這種同質(zhì)化設(shè)置無法滿足用戶多樣的信息需求,而這些需求通常跨越不同領(lǐng)域和模態(tài)。
2、多模態(tài)檢索系統(tǒng)必須發(fā)展以適應(yīng)這些多樣化需求。例如,某些用戶可能通過文本查詢搜索網(wǎng)絡(luò)圖像,而另一些用戶可能使用一張連衣裙的照片并結(jié)合“相似款式”或“紅色”等文本輸入來尋找匹配的時尚產(chǎn)品。目前的多模態(tài)檢索系統(tǒng)在應(yīng)對這些多樣化的用戶需求方面存在不足,通常局限于對預(yù)訓(xùn)練模型【如clip(contrastive?language-image?pre-training)】的任務(wù)特定微調(diào)。因此,迫切需要構(gòu)想和開發(fā)更靈活的通用神經(jīng)檢索器,能夠跨越不同領(lǐng)域、模態(tài)和檢索任務(wù),更好地滿足用戶的多樣化需求。
3、在計算機科學(xué)領(lǐng)域,另一項
4、視覺語言學(xué)習(xí)在基于transformer的預(yù)訓(xùn)練模型和大規(guī)模圖像語言數(shù)據(jù)集的推動下取得了顯著進展。這些進展突顯了數(shù)據(jù)擴展的重要性,數(shù)據(jù)顯示通過簡化的對比預(yù)訓(xùn)練管道可以改善對齊并擴展開放詞匯理解能力。盡管有這些進展,但由于缺乏配對的3d場景語言數(shù)據(jù),將這些模型應(yīng)用于場景理解仍然是一個重大挑戰(zhàn)。目前的3d場景定位模型通常依賴于任務(wù)特定的知識和高級優(yōu)化策略,這限制了它們的通用性。為了解決這一問題,研究人員開始采用預(yù)訓(xùn)練的2d視覺語言模型用于3d任務(wù),但這些模型在捕捉3d數(shù)據(jù)固有的空間關(guān)系方面仍存在不足。這強調(diào)了語言與3d場景之間進行多層次對齊的需求,特別是針對3d特定信息。
5、已知研究中,混合檢索的主要組件,即大語言模型(large?language?model,llm)和視覺語言預(yù)訓(xùn)練模型(vision-and-language?pretrained?model,vlpm),都存在幻覺問題。特別是,llm傾向于生成非預(yù)期的文本幻覺,而vlpm可能在圖像中生成不存在的對象,這被稱為對象幻覺。已知的mllm容易對在視覺指令數(shù)據(jù)集中頻繁出現(xiàn)或共同出現(xiàn)的對象產(chǎn)生幻覺。
6、在傳統(tǒng)的rag場景里面,查詢和段落通常被編碼為單個向量。大多數(shù)稠密檢索器未能明確發(fā)現(xiàn)并利用問題的關(guān)鍵實體。這往往導(dǎo)致過于籠統(tǒng)的知識,而缺乏具體的焦點。基于此,目前技術(shù)中亟需識別問題的關(guān)鍵實體,并專門檢索與問題相關(guān)的、聚焦于這些實體的知識。籠統(tǒng)描述的只會給模型帶來無關(guān)的噪聲,從而影響生成結(jié)果。可見,本領(lǐng)域亟需一種良好的檢索策略來避免可能的幻覺。
7、綜上,3d視覺語言對齊過程中面臨的對象類別屬性多樣、關(guān)系復(fù)雜。3d視覺語言圖像文本匹配稀缺,3d場景本身檢索復(fù)雜性、數(shù)據(jù)重復(fù)性缺乏統(tǒng)一對齊3d多模態(tài)知識庫方法。
技術(shù)實現(xiàn)思路
1、本申請的目的是提供一種嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法、設(shè)備、介質(zhì)及產(chǎn)品,能夠提高生成回答的準確性,減少幻覺現(xiàn)象的發(fā)生。
2、為實現(xiàn)上述目的,本申請?zhí)峁┝巳缦路桨福?/p>
3、第一方面,本申請?zhí)峁┝艘环N嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,包括:
4、構(gòu)建多模態(tài)3d知識檢索框架;所述多模態(tài)3d知識檢索框架包括圖像編碼器和文本編碼器;
5、采用圖像編碼器和文本編碼器,分別將圖像數(shù)據(jù)和文本數(shù)據(jù)編碼為向量,得到圖像向量和文本向量;
6、融合所述圖像向量和所述文本向量,并基于融合結(jié)果生成知識圖譜,存儲所述知識圖譜,得到多模態(tài)知識庫;將所述多模態(tài)知識庫作為嵌入式具身智能視覺語言大模型知識庫;
7、獲取用戶問題,并解析所述用戶問題得到解析結(jié)果;
8、基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到多個物體以及圖檢索結(jié)果;
9、將選取的多個物體與對應(yīng)的圖檢索結(jié)果進行合并,得到三元組信息,并將所述三元組信息轉(zhuǎn)化為物體的位置文本描述,得到檢索結(jié)果;所述三元組信息用于描述物體間的位置關(guān)系;
10、將所述檢索結(jié)果輸入到多模態(tài)大語言模型中,輸出與所述用戶問題對應(yīng)的答案。
11、可選地,基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到多個物體以及圖檢索結(jié)果,具體包括:
12、基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到對應(yīng)物體以及圖檢索結(jié)果;
13、采用細粒度對比學(xué)習(xí)方法,利用3d視覺、2d視覺以及文本標記之間的標記級,確定解析結(jié)果與對應(yīng)物體間的相似度;
14、按照相似度對所述物體進行降序排列,得到物體序列;
15、保留所述物體序列中的前k個物體,保留的前k個物體為檢索得到的多個物體。
16、可選地,解析結(jié)果與對應(yīng)物體間的相似度包括3d圖像到文本的相似度、文本到文本的相似度、文本到3d圖像的相似度、2d圖像到文本的相似度、文本到2d圖像的相似度中的一種或多種。
17、可選地,采用相似度矩陣確定解析結(jié)果與對應(yīng)物體間的相似度;所述相似度矩陣表示為:
18、;
19、式中,表示物體和物體間的相似度,表示圖像的編碼向量,表示文本的編碼向量,和表示不同場景或?qū)ο蟮那度胂蛄浚硎厩度胂蛄康霓D(zhuǎn)置,d表示場景實體,表示文本特征向量,表示采樣數(shù),表示文本的標記數(shù);均表示嵌入向量。
20、可選地,解析所述用戶問題得到解析結(jié)果,包括:
21、使用構(gòu)造解析器解析所述用戶問題,得到解析樹;
22、在所述解析樹的葉節(jié)點提取名詞短語,得到所述解析結(jié)果。
23、可選地,基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到多個物體以及圖檢索結(jié)果的過程中,采用的檢索策略為混合檢索。
24、可選地,所述混合檢索包括全局向量檢索和圖檢索;
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,所述嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法包括:
2.根據(jù)權(quán)利要求1所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到多個物體以及圖檢索結(jié)果,具體包括:
3.根據(jù)權(quán)利要求2所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,解析結(jié)果與對應(yīng)物體間的相似度包括3D圖像到文本的相似度、文本到文本的相似度、文本到3D圖像的相似度、2D圖像到文本的相似度、文本到2D圖像的相似度中的一種或多種。
4.根據(jù)權(quán)利要求2所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,采用相似度矩陣確定解析結(jié)果與對應(yīng)物體間的相似度;所述相似度矩陣表示為:
5.根據(jù)權(quán)利要求1所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,解析所述用戶問題得到解析結(jié)果,包括:
6.根據(jù)權(quán)利要求1所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,基于所述解析結(jié)果在所
7.根據(jù)權(quán)利要求6所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,所述混合檢索包括全局向量檢索和圖檢索;
8.一種計算機設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序以實現(xiàn)權(quán)利要求1-7中任一項所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法。
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-7中任一項所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-7中任一項所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法。
...【技術(shù)特征摘要】
1.一種嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,所述嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法包括:
2.根據(jù)權(quán)利要求1所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,基于所述解析結(jié)果在所述多模態(tài)知識庫中檢索得到多個物體以及圖檢索結(jié)果,具體包括:
3.根據(jù)權(quán)利要求2所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,解析結(jié)果與對應(yīng)物體間的相似度包括3d圖像到文本的相似度、文本到文本的相似度、文本到3d圖像的相似度、2d圖像到文本的相似度、文本到2d圖像的相似度中的一種或多種。
4.根據(jù)權(quán)利要求2所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,采用相似度矩陣確定解析結(jié)果與對應(yīng)物體間的相似度;所述相似度矩陣表示為:
5.根據(jù)權(quán)利要求1所述的嵌入式具身智能視覺語言大模型知識庫構(gòu)建及應(yīng)用方法,其特征在于,解析所述用戶問題得到解析結(jié)果,包括:
6.根據(jù)權(quán)利要...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李明益,劉輝,韓立金,
申請(專利權(quán))人:北京理工大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。