"/>
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于大語言模型的智能視聽交互系統(tǒng)
[0001]本專利技術(shù)屬于視頻
、
照片和音頻等數(shù)據(jù)處理方法的
,特別是涉及基于大語言模型的智能視聽交互系統(tǒng)
。
技術(shù)介紹
[0002]當(dāng)今社會(huì)正處于一個(gè)信息爆炸的時(shí)代,人們接受的信息數(shù)量越來越龐大,內(nèi)容越來越復(fù)雜
。
而研究表明,人類百分之九十的記憶會(huì)在一周后被遺忘
。
因此,如何記錄下生活中的關(guān)鍵信息,如某次會(huì)議的主要內(nèi)容,遇到過的某個(gè)重要人長相等等,成為了人們迫切的需求
。
[0003]此外,傳統(tǒng)的視頻檢索依賴人工對(duì)視頻內(nèi)容進(jìn)行標(biāo)注,通過關(guān)鍵詞匹配的方式實(shí)現(xiàn)
。
隨著視頻數(shù)量的急劇增加和視頻內(nèi)容的多樣性,人力成本大幅度提高的同時(shí),有限的關(guān)鍵詞無法準(zhǔn)確的對(duì)視頻內(nèi)容進(jìn)行描述和檢索
。
來回的切換關(guān)鍵詞進(jìn)行尋找,而往往我們需要的是一種更接近自然對(duì)話的方式
。
技術(shù)實(shí)現(xiàn)思路
[0004]技術(shù)方案:為了解決上述的技術(shù)問題,本專利技術(shù)是通過解析錄音錄像設(shè)備拍攝的畫面和錄制的音頻轉(zhuǎn)化為對(duì)應(yīng)的文本描述形成本地知識(shí)庫,再將本地知識(shí)庫接入大語言模型,是能使人們可以將說過的話
、
看過的東西以及聽過的內(nèi)容,都變成可搜索的狀態(tài),并找到相應(yīng)的畫面,該系統(tǒng)可能充當(dāng)人們的第二大腦,輔助人們進(jìn)行記憶
。
[0005]本專利技術(shù)提供的基于大語言模型的智能視聽交互系統(tǒng),具體為包括錄音錄像設(shè)備
、GPU
計(jì)算設(shè)備
、
用 ...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.
基于大語言模型的智能視聽交互系統(tǒng),其特征在于:包括錄音錄像設(shè)備
、GPU
計(jì)算設(shè)備
、
用戶交互設(shè)備,三個(gè)設(shè)備之間進(jìn)行信息交互,具體為:所述錄音錄像設(shè)備,用于將錄音錄像設(shè)備獲取視頻數(shù)據(jù)
、
照片數(shù)據(jù)
、
音頻數(shù)據(jù),通過離線或在線的方式傳送于
GPU
計(jì)算設(shè)備,且能進(jìn)行實(shí)時(shí)傳送;所述
GPU
計(jì)算設(shè)備,用于將錄音錄像設(shè)備傳送的數(shù)據(jù)通過不同的算法和模型計(jì)算,進(jìn)行轉(zhuǎn)化為文本形式,構(gòu)建大語言模型的本地知識(shí)庫;所述用戶交互設(shè)備,用于用戶與大語言模型進(jìn)行語音交互或純文本交互
。2.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述錄音錄像設(shè)包括可穿戴的具有錄音錄像功能的智能眼鏡
、
運(yùn)動(dòng)攝像頭
、
執(zhí)法記錄儀
。3.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述
GPU
計(jì)算設(shè)備中包括用于離線部署預(yù)訓(xùn)練的圖像描述模型
、
大語言模型集成工具
Langchain、
聲紋識(shí)別
ASV
模型和自動(dòng)語音識(shí)別
ASR
模型
。4.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述用戶互用設(shè)備包括顯示器
、
麥克風(fēng)
、
音箱
、
鍵盤
、
鼠標(biāo)
。5.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:其中對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
(1)
首先進(jìn)行視頻分割,逐幀將所拍攝的視頻轉(zhuǎn)化為圖片,對(duì)圖片進(jìn)行命名時(shí)添加上其在視頻中的時(shí)間標(biāo)簽;
(2)
然后,對(duì)相鄰幀的兩張圖片進(jìn)行通過相似度對(duì)比,對(duì)于相似度超過設(shè)定閾值的圖片僅隨機(jī)保留一張,而后繼續(xù)和后一幀進(jìn)行對(duì)比;
(3)
然后,形成帶時(shí)間標(biāo)簽的圖片數(shù)據(jù),該數(shù)據(jù)通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
(4)
然后,將圖像的時(shí)間標(biāo)簽與圖像文本對(duì)進(jìn)行對(duì)齊,最后通過一系列的文本格式調(diào)整
、
多文本融合
、
文本結(jié)構(gòu)化等文本整理工作,存入本地知識(shí)庫
1。6.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:其中對(duì)照片數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
(1)
直接通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
(2)
然后,將照片的文...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:朱利,范小波,
申請(qǐng)(專利權(quán))人:朱利,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。