"/>
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>朱利專利>正文

    基于大語言模型的智能視聽交互系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):39511594 閱讀:20 留言:0更新日期:2023-11-25 18:47
    本發(fā)明專利技術(shù)提供了基于大語言模型的智能視聽交互系統(tǒng),包括錄音錄像設(shè)備

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    基于大語言模型的智能視聽交互系統(tǒng)


    [0001]本專利技術(shù)屬于視頻

    照片和音頻等數(shù)據(jù)處理方法的
    ,特別是涉及基于大語言模型的智能視聽交互系統(tǒng)


    技術(shù)介紹

    [0002]當(dāng)今社會(huì)正處于一個(gè)信息爆炸的時(shí)代,人們接受的信息數(shù)量越來越龐大,內(nèi)容越來越復(fù)雜

    而研究表明,人類百分之九十的記憶會(huì)在一周后被遺忘

    因此,如何記錄下生活中的關(guān)鍵信息,如某次會(huì)議的主要內(nèi)容,遇到過的某個(gè)重要人長相等等,成為了人們迫切的需求

    [0003]此外,傳統(tǒng)的視頻檢索依賴人工對(duì)視頻內(nèi)容進(jìn)行標(biāo)注,通過關(guān)鍵詞匹配的方式實(shí)現(xiàn)

    隨著視頻數(shù)量的急劇增加和視頻內(nèi)容的多樣性,人力成本大幅度提高的同時(shí),有限的關(guān)鍵詞無法準(zhǔn)確的對(duì)視頻內(nèi)容進(jìn)行描述和檢索

    來回的切換關(guān)鍵詞進(jìn)行尋找,而往往我們需要的是一種更接近自然對(duì)話的方式


    技術(shù)實(shí)現(xiàn)思路

    [0004]技術(shù)方案:為了解決上述的技術(shù)問題,本專利技術(shù)是通過解析錄音錄像設(shè)備拍攝的畫面和錄制的音頻轉(zhuǎn)化為對(duì)應(yīng)的文本描述形成本地知識(shí)庫,再將本地知識(shí)庫接入大語言模型,是能使人們可以將說過的話

    看過的東西以及聽過的內(nèi)容,都變成可搜索的狀態(tài),并找到相應(yīng)的畫面,該系統(tǒng)可能充當(dāng)人們的第二大腦,輔助人們進(jìn)行記憶

    [0005]本專利技術(shù)提供的基于大語言模型的智能視聽交互系統(tǒng),具體為包括錄音錄像設(shè)備
    、GPU
    計(jì)算設(shè)備

    戶交互設(shè)備,三個(gè)設(shè)備之間進(jìn)行信息交互,具體為包括:
    [0006]所述錄音錄像設(shè)備,用于將錄音錄像設(shè)備獲取視頻數(shù)據(jù)

    照片數(shù)據(jù)

    音頻數(shù)據(jù),通過離線或在線的方式傳送于
    GPU
    計(jì)算設(shè)備,且能進(jìn)行實(shí)時(shí)傳送;
    [0007]所述
    GPU
    計(jì)算設(shè)備,用于將錄音錄像設(shè)備傳送的數(shù)據(jù)通過不同的算法和模型計(jì)算,進(jìn)行轉(zhuǎn)化為文本形式,構(gòu)建大語言模型的本地知識(shí)庫;
    [0008]所述用戶交互設(shè)備,用于用戶與大語言模型進(jìn)行語音交互或純文本交互

    [0009]作為改進(jìn),所述錄音錄像設(shè)包括可穿戴的具有錄音錄像功能的智能眼鏡

    運(yùn)動(dòng)攝像頭

    執(zhí)法記錄儀

    [0010]作為改進(jìn),所述
    GPU
    計(jì)算設(shè)備中包括用于離線部署預(yù)訓(xùn)練的圖像描述模型

    大語言模型集成工具長鏈
    Langchain、
    聲紋識(shí)別
    ASV
    模型和自動(dòng)語音識(shí)別
    ASR
    模型

    [0011]作為改進(jìn),所述用戶互用設(shè)備包括顯示器

    麥克風(fēng)

    音箱

    鍵盤

    鼠標(biāo)

    [0012]作為改進(jìn),其中對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
    [0013](1)
    首先進(jìn)行視頻分割,逐幀將所拍攝的視頻轉(zhuǎn)化為圖片,對(duì)圖片進(jìn)行命名時(shí)添加上其在視頻中的時(shí)間標(biāo)簽;
    [0014](2)
    然后,對(duì)相鄰幀的兩張圖片進(jìn)行通過相似度對(duì)比,對(duì)于相似度超過設(shè)定閾值,例如為
    85
    %的圖片僅隨機(jī)保留一張,而后繼續(xù)和后一幀進(jìn)行對(duì)比;
    [0015](3)
    然后,形成帶時(shí)間標(biāo)簽的圖片數(shù)據(jù),該數(shù)據(jù)通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
    [0016](4)
    然后,將圖像的時(shí)間標(biāo)簽與圖像文本對(duì)進(jìn)行對(duì)齊,最后通過一系列的文本格式調(diào)整

    多文本融合

    文本結(jié)構(gòu)化等文本整理工作,存入本地知識(shí)庫
    1。
    [0017]作為改進(jìn),其中對(duì)照片數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
    [0018](1)
    直接通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
    [0019](2)
    然后,將照片的文件名與圖像文本對(duì)進(jìn)行對(duì)齊;
    [0020](3)
    最后通過一系列的文本格式調(diào)整

    多文本融合

    文本結(jié)構(gòu)化的文本整理工作,存入本地知識(shí)庫
    1。
    [0021]作為改進(jìn),其中對(duì)音頻數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
    [0022](1)
    首先,通過聲紋識(shí)別
    ASV
    模型將說話人的聲音進(jìn)行區(qū)分;
    [0023](2)
    然后,通過自動(dòng)語音識(shí)別
    ASR
    模型并轉(zhuǎn)化為文字;
    [0024](3)
    再次,進(jìn)行音頻文本打標(biāo),即將自動(dòng)語音識(shí)別模型轉(zhuǎn)化的文本打上時(shí)間標(biāo)簽,并與其在語音中的位置對(duì)齊;
    [0025](4)
    最后,將打標(biāo)的文本存入本地知識(shí)庫
    2。
    [0026]作為改進(jìn),
    (1)
    首先,通過視覺編碼器
    Visual Encoder
    組件進(jìn)行編碼;
    [0027](2)
    然后,通過預(yù)訓(xùn)練的視覺變換器
    VIT
    ?
    G

    Vision Transformer G/14
    組件,并經(jīng)過交叉注意力機(jī)制
    Cross Attention
    輸入
    Query Transformer
    組件,最后輸入大語言模型1,包括
    Vicuna
    模型或
    Chatglm
    ?
    6B
    模型;
    [0028](3)
    最后,輸出圖像文本對(duì)
    [0029]作為改進(jìn),所述的大語言模型,是輸入為本地知識(shí)庫和用戶輸入的詢問,輸出為針對(duì)問題的回答和相關(guān)的本地知識(shí)來源的模型,其中進(jìn)行數(shù)據(jù)處理的具體步驟為:
    [0030](1)
    接收兩個(gè)輸入,一個(gè)是本地知識(shí)庫,一個(gè)是用戶輸入,兩個(gè)輸入能構(gòu)建向量搜索工具索引,例如
    Faiss
    索引,獲得
    Document
    對(duì)象;
    [0031](2)
    通過向量搜索工具索引,例如
    Faiss
    索引和
    Document
    文檔的內(nèi)容按換行符拼起來作為查詢
    query
    的上下文文本片段,提示模板將上下文文本片段和用戶輸入合并成提示,傳遞給大語言模型2,大語言模型推理出結(jié)果,經(jīng)過解析后,輸出最終結(jié)果,即問答輸出和相關(guān)本地知識(shí)來源位置
    [0032]作為改進(jìn),其中本地知識(shí)庫文件首先經(jīng)過文檔加載器進(jìn)行加載,然后經(jīng)過分割,構(gòu)成
    Document
    對(duì)象,然后獲得
    Document
    對(duì)象的嵌入
    Embedding
    ,并在嵌入之后存儲(chǔ)到向量存儲(chǔ)庫,構(gòu)建向量搜索工具索引,例如
    Faiss
    索引

    [0033]有益效果:本專利技術(shù)提出的系統(tǒng)與現(xiàn)有的系統(tǒng)相比,具有如下的優(yōu)點(diǎn):
    [0034](1)
    本專利技術(shù)的系統(tǒng)能充當(dāng)人的“第二大腦”,幫助人們記本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.
    基于大語言模型的智能視聽交互系統(tǒng),其特征在于:包括錄音錄像設(shè)備
    、GPU
    計(jì)算設(shè)備

    用戶交互設(shè)備,三個(gè)設(shè)備之間進(jìn)行信息交互,具體為:所述錄音錄像設(shè)備,用于將錄音錄像設(shè)備獲取視頻數(shù)據(jù)

    照片數(shù)據(jù)

    音頻數(shù)據(jù),通過離線或在線的方式傳送于
    GPU
    計(jì)算設(shè)備,且能進(jìn)行實(shí)時(shí)傳送;所述
    GPU
    計(jì)算設(shè)備,用于將錄音錄像設(shè)備傳送的數(shù)據(jù)通過不同的算法和模型計(jì)算,進(jìn)行轉(zhuǎn)化為文本形式,構(gòu)建大語言模型的本地知識(shí)庫;所述用戶交互設(shè)備,用于用戶與大語言模型進(jìn)行語音交互或純文本交互
    。2.
    根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述錄音錄像設(shè)包括可穿戴的具有錄音錄像功能的智能眼鏡

    運(yùn)動(dòng)攝像頭

    執(zhí)法記錄儀
    。3.
    根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述
    GPU
    計(jì)算設(shè)備中包括用于離線部署預(yù)訓(xùn)練的圖像描述模型

    大語言模型集成工具
    Langchain、
    聲紋識(shí)別
    ASV
    模型和自動(dòng)語音識(shí)別
    ASR
    模型
    。4.
    根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:所述用戶互用設(shè)備包括顯示器

    麥克風(fēng)

    音箱

    鍵盤

    鼠標(biāo)
    。5.
    根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:其中對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
    (1)
    首先進(jìn)行視頻分割,逐幀將所拍攝的視頻轉(zhuǎn)化為圖片,對(duì)圖片進(jìn)行命名時(shí)添加上其在視頻中的時(shí)間標(biāo)簽;
    (2)
    然后,對(duì)相鄰幀的兩張圖片進(jìn)行通過相似度對(duì)比,對(duì)于相似度超過設(shè)定閾值的圖片僅隨機(jī)保留一張,而后繼續(xù)和后一幀進(jìn)行對(duì)比;
    (3)
    然后,形成帶時(shí)間標(biāo)簽的圖片數(shù)據(jù),該數(shù)據(jù)通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
    (4)
    然后,將圖像的時(shí)間標(biāo)簽與圖像文本對(duì)進(jìn)行對(duì)齊,最后通過一系列的文本格式調(diào)整

    多文本融合

    文本結(jié)構(gòu)化等文本整理工作,存入本地知識(shí)庫
    1。6.
    根據(jù)權(quán)利要求1所述基于大語言模型的智能視聽交互系統(tǒng),其特征在于:其中對(duì)照片數(shù)據(jù)進(jìn)行轉(zhuǎn)化的步驟為:
    (1)
    直接通過預(yù)訓(xùn)練的圖像描述模型得到圖像文本對(duì);
    (2)
    然后,將照片的文...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:朱利范小波
    申請(qǐng)(專利權(quán))人:朱利
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品午夜无码电影网| 人妻无码久久久久久久久久久| 亚洲av中文无码| 亚洲国产成人片在线观看无码| 久久久久亚洲AV无码专区首JN| 日韩无码系列综合区| 777爽死你无码免费看一二区| 亚洲熟妇少妇任你躁在线观看无码| 亚洲国产精品无码成人片久久| 最新中文字幕AV无码不卡| 精品成在人线AV无码免费看| 亚洲一区无码中文字幕| 国产成人无码精品久久二区三区| 无码精品尤物一区二区三区| 亚洲精品无码av人在线观看 | 国产成人无码精品一区在线观看| 无码国内精品人妻少妇蜜桃视频| yy111111少妇影院里无码| (无码视频)在线观看| 亚洲AV无码一区二区三区牛牛| 亚洲av激情无码专区在线播放| 国产亚洲?V无码?V男人的天堂| 精品国产AV无码一区二区三区| 亚洲成a人片在线观看天堂无码 | 无码A级毛片日韩精品| 一区二区三区无码被窝影院| 亚洲AV无码一区二区三区在线| 国产成A人亚洲精V品无码| 亚洲综合无码AV一区二区 | 内射人妻少妇无码一本一道 | 国产精品无码成人午夜电影| 亚洲高清无码在线观看| 无码人妻aⅴ一区二区三区| 亚洲精品无码你懂的| 无码人妻精品一区二区三区久久久| 久久AV高清无码| 亚洲av纯肉无码精品动漫| 久久国产精品成人无码网站| 国产综合无码一区二区色蜜蜜| 国产成人无码A区在线观看视频| 久久久91人妻无码精品蜜桃HD|