當(dāng)前位置: 首頁 > 專利查詢>朱利專利>正文

基于大語言模型的智能視聽交互系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：39511594 閱讀：20 留言：0更新日期：2023-11-25 18:47

本發(fā)明專利技術(shù)提供了基于大語言模型的智能視聽交互系統(tǒng)，包括錄音錄像設(shè)備

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
基于大語言模型的智能視聽交互系統(tǒng)

[0001]本專利技術(shù)屬于視頻
、
照片和音頻等數(shù)據(jù)處理方法的
，特別是涉及基于大語言模型的智能視聽交互系統(tǒng)
。

技術(shù)介紹

[0002]當(dāng)今社會(huì)正處于一個(gè)信息爆炸的時(shí)代，人們接受的信息數(shù)量越來越龐大，內(nèi)容越來越復(fù)雜
。
而研究表明，人類百分之九十的記憶會(huì)在一周后被遺忘
。
因此，如何記錄下生活中的關(guān)鍵信息，如某次會(huì)議的主要內(nèi)容，遇到過的某個(gè)重要人長相等等，成為了人們迫切的需求
。
[0003]此外，傳統(tǒng)的視頻檢索依賴人工對(duì)視頻內(nèi)容進(jìn)行標(biāo)注，通過關(guān)鍵詞匹配的方式實(shí)現(xiàn)
。
隨著視頻數(shù)量的急劇增加和視頻內(nèi)容的多樣性，人力成本大幅度提高的同時(shí)，有限的關(guān)鍵詞無法準(zhǔn)確的對(duì)視頻內(nèi)容進(jìn)行描述和檢索
。
來回的切換關(guān)鍵詞進(jìn)行尋找，而往往我們需要的是一種更接近自然對(duì)話的方式
。

技術(shù)實(shí)現(xiàn)思路

[0004]技術(shù)方案：為了解決上述的技術(shù)問題，本專利技術(shù)是通過解析錄音錄像設(shè)備拍攝的畫面和錄制的音頻轉(zhuǎn)化為對(duì)應(yīng)的文本描述形成本地知識(shí)庫，再將本地知識(shí)庫接入大語言模型，是能使人們可以將說過的話
、
看過的東西以及聽過的內(nèi)容，都變成可搜索的狀態(tài)，并找到相應(yīng)的畫面，該系統(tǒng)可能充當(dāng)人們的第二大腦，輔助人們進(jìn)行記憶
。
[0005]本專利技術(shù)提供的基于大語言模型的智能視聽交互系統(tǒng)，具體為包括錄音錄像設(shè)備
、GPU
計(jì)算設(shè)備
、
用...

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特征摘要】
1.
基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：包括錄音錄像設(shè)備
、GPU
計(jì)算設(shè)備
、
用戶交互設(shè)備，三個(gè)設(shè)備之間進(jìn)行信息交互，具體為：所述錄音錄像設(shè)備，用于將錄音錄像設(shè)備獲取視頻數(shù)據(jù)
、
照片數(shù)據(jù)
、
音頻數(shù)據(jù)，通過離線或在線的方式傳送于
GPU
計(jì)算設(shè)備，且能進(jìn)行實(shí)時(shí)傳送；所述
GPU
計(jì)算設(shè)備，用于將錄音錄像設(shè)備傳送的數(shù)據(jù)通過不同的算法和模型計(jì)算，進(jìn)行轉(zhuǎn)化為文本形式，構(gòu)建大語言模型的本地知識(shí)庫；所述用戶交互設(shè)備，用于用戶與大語言模型進(jìn)行語音交互或純文本交互
。2.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：所述錄音錄像設(shè)包括可穿戴的具有錄音錄像功能的智能眼鏡
、
運(yùn)動(dòng)攝像頭
、
執(zhí)法記錄儀
。3.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：所述
GPU
計(jì)算設(shè)備中包括用于離線部署預(yù)訓(xùn)練的圖像描述模型
、
大語言模型集成工具
Langchain、
聲紋識(shí)別
ASV
模型和自動(dòng)語音識(shí)別
ASR
模型
。4.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：所述用戶互用設(shè)備包括顯示器
、
麥克風(fēng)
、
音箱
、
鍵盤
、
鼠標(biāo)
。5.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：其中對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為：
(1)
首先進(jìn)行視頻分割，逐幀將所拍攝的視頻轉(zhuǎn)化為圖片，對(duì)圖片進(jìn)行命名時(shí)添加上其在視頻中的時(shí)間標(biāo)簽；
(2)
然后，對(duì)相鄰幀的兩張圖片進(jìn)行通過相似度對(duì)比，對(duì)于相似度超過設(shè)定閾值的圖片僅隨機(jī)保留一張，而后繼續(xù)和后一幀進(jìn)行對(duì)比；
(3)
然后，形成帶時(shí)間標(biāo)簽的圖片數(shù)據(jù)，該數(shù)據(jù)通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì)；
(4)
然后，將圖像的時(shí)間標(biāo)簽與圖像文本對(duì)進(jìn)行對(duì)齊，最后通過一系列的文本格式調(diào)整
、
多文本融合
、
文本結(jié)構(gòu)化等文本整理工作，存入本地知識(shí)庫
1。6.
根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng)，其特征在于：其中對(duì)照片數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為：
(1)
直接通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì)；
(2)
然后，將照片的文...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：朱利，范小波，
申請(qǐng)(專利權(quán))人：朱利，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)