System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲精品色午夜无码专区日韩 ,久久无码人妻一区二区三区午夜 ,亚洲av无码专区青青草原
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于混合神經網絡模型的360度視頻視口軌跡預測方法技術

    技術編號:44524722 閱讀:4 留言:0更新日期:2025-03-07 13:16
    本發明專利技術公開了一種基于混合神經網絡模型的360度視頻視口軌跡預測方法,屬于360度視頻傳輸和軌跡預測領域。該方法包括:首先,設備在用戶端提取視口位置數據;然后,將用戶視口位置信息與服務端提供的顯著性圖像輸入編碼器進行處理,生成用戶軌跡的歷史輸入特征;最后,將歷史輸入特征、當前用戶視口位置信息及未來顯著性圖像輸入解碼器,預測用戶在未來一段時間內的視口軌跡。本發明專利技術的方法提高了360度視頻視口軌跡預測的精度,進而提升360度視頻的用戶體驗。

    【技術實現步驟摘要】

    本專利技術涉及360度視頻傳輸與軌跡預測領域,具體地說是一種基于混合神經網絡模型的360度視頻視口軌跡預測方法


    技術介紹

    1、隨著虛擬現實技術(vr)的快速發展,360度視頻作為一個技術綜合性較強的領域,逐漸成為各國、企業及高校的研究熱點。與傳統的2d視頻相比,360度視頻提供了更強的沉浸感和交互體驗。然而,這也帶來了對帶寬更高的需求,以確保觀眾獲得良好的觀看質量。

    2、在使用頭戴式顯示器觀看360度視頻時,用戶只能看到顯示器的視口區域內的部分內容,而不是整個360度的視頻。這就要求在視頻傳輸中采取有效的帶寬利用策略。基于視口預測的360度視頻傳輸被認為是緩解全景視頻對網絡傳輸壓力的關鍵方法。通過準確有效的視口預測模型,結合用戶的觀看行為和視頻的顯著特征,可以預測用戶在下一時間段內的視場區域。這種方法使得只在用戶的視口內進行高質量的流媒體傳輸,從而減少帶寬消耗,提高用戶體驗質量。

    3、在360度視頻的視口預測中,通常采用兩種方法:獨立于內容的方法和基于內容的方法。獨立于內容的方法利用觀眾的歷史頭部運動軌跡進行短期預測,表現良好,但在長期預測時其性能往往迅速下降。相比之下,基于內容的視口預測方法則結合視頻內容進行未來視口的預測,其中一種常用的方法是通過檢測視頻幀中的顯著特征生成顯著性圖。這種方法因觀眾的觀看行為與視頻顯著特征之間的相關性,在長期預測中通常表現優于單純基于頭部軌跡的視口預測。

    4、準確預測觀眾的視口區域能夠實現高分辨率的切片傳輸,確保觀眾在體驗上感覺與完整視頻無差異。然而,錯誤的視口預測可能導致觀眾無法看到任何畫面,從而顯著降低觀看體驗。因此,構建高準確度的視口預測模型是保障用戶觀看360度視頻體驗質量的關鍵所在。


    技術實現思路

    1、本專利技術提出一種基于混合神經網絡模型的360度視頻視口軌跡預測方法,目的在于解決上述
    技術介紹
    中提出的問題,本方法通過編碼器處理用戶的歷史軌跡數據和歷史圖像顯著性,以提取用戶的歷史輸入特征。隨后,通過解碼器結合當前軌跡數據、未來的圖像顯著性以及歷史輸入特征,顯著提高了視口軌跡預測的準確度和精度。

    2、本方法采用的技術方案包含以下步驟:

    3、步驟1:獲取360度視頻用戶的歷史視口軌跡數據以及用戶觀看視頻的圖像顯著性;

    4、步驟2:將所述的歷史視口軌跡信息和歷史圖像顯著性信息注入到混合模型的編碼器中,以獲得視口預測軌跡的歷史輸入特征;

    5、步驟3:將歷史輸入特征、當前用戶的視口位置信息和未來的圖像顯著性注入到混合模型的解碼器中,從而得到未來一段時間內的視口軌跡預測。

    6、如上所述的基于混合神經網絡預測模型的視口預測軌跡預測方法,所述的步驟1中的:用戶軌跡數據包括在某一時間段m內用戶頭部的俯仰角度φ和偏航角度γ,即用戶頭部坐標vt=(φt,γt),以及用戶觀看的視頻各幀圖像的顯著性pt,并且將用戶過去m秒內的俯仰角度和偏航角度轉換成笛卡爾坐標系下的坐標

    7、如上所述的基于混合神經網絡預測模型的視口預測方法,所述步驟2中,設計一個360度視頻視口預測模型,該模型由一個編碼器和一個解碼器組成,編碼器用于提取出用戶歷史軌跡信息與圖像顯著性信息之間的特征值,解碼器則結合編碼器提供的特征值,對當前用戶的視口位置和未來一段時間的圖像顯著性特征進行處理,以獲得未來一段時間內的視口軌跡信息。

    8、根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,所述步驟2中編碼器的lstm層分別對用戶的歷史軌跡數據和用戶歷史圖像顯著性進行特征提取,所述的特征提取以及歷史輸入信息的狀態保存過程如下:

    9、

    10、

    11、其中分別表示的時經過lstm處理后得到的過去m秒內的用戶歷史視口軌跡特征和視頻的顯著性圖像的特征,表示的是lstm處理輸入信息后的當前時刻t的狀態信息,用以保存數據長期關系。s0為lstm的初始狀態。在編碼器中,lstm的初始狀態為0。表示為得到的軌跡特征與圖像特征在特征向量維度上的結合得到的特征向量。

    12、如上所述的混合神經網絡編碼器的輸入編碼層,將軌跡數據特征和圖像顯著性特征在維度上結合,并插入時序信息的過程如下:

    13、

    14、

    15、其中pos表示的是位置,i表示的是維度。也就是說,位置編碼的每一個維度對應于一個正弦波。波長形成從2π到1000·2π的幾何級數。

    16、如上所述的混合神經網絡編碼器的自注意力機制層,將輸入編碼層的特征轉化為查詢向量、關鍵向量和值向量,計算注意力值,聚焦視口軌跡移動的關鍵因素。將軌跡特征和圖像特征相結合后的特征向量進行轉換,首先,將線性變換矩陣wq、wk、wv與輸入特征向量相乘,得到查詢向量q、關鍵向量k和值向量v。該層的自注意力值的計算和聚合過程如下:

    17、

    18、自注意力值可以認為是矩陣v與矩陣q和k計算的權重相乘。權重由序列q的每個元素如何受到序列k中所有其他元素的影響來定義。此外,softmax函數對權重進行歸一化,以產生介于0和1之間的分布。然后將這些權重應用于v序列中的所有元素。比例因子是為了避免在維度過高時的內積值過大的問題。

    19、多頭注意力機制運行過程可以看作在重復多次對q、k和v進行線性投影。這種多頭注意力有利于模型通過聯合注意其他位置的不同表示子空間的信息,從q、k和v的不同表示中學習。其運行過程如下所示:

    20、multihead(q,k,v)=concat(h1,...,hn)

    21、其中hi表示將輸入特征拆分后單獨在每個注意力頭的注意力值,concat(·)表示將各注意力頭的輸出沿特征向量的維度進行連接的過程。將多頭注意力機制得到的最終歷史輸入特征表示為oenc

    22、如上所述的混合神經網絡編碼器的前饋網絡層,對自注意力機制層的注意力值聚合得到的輸入特征進行非線性變化,以揭示不同維度之間的相互關系,并計算歷史輸入信息的特征值。在多頭注意力層聚合處理所有的輸入特征后,通過前饋網絡層負責對輸入特征進行非線性變化,用以考慮不同維度之間的相互作用和捕獲數據中復雜的模式和關系。前饋層由兩個線性變換組成,兩者之間通過一個非線性激活函數分隔,該層計算過程如下:

    23、ffn(x)=relu(xw1+b1)w2+b2

    24、其中,w1、w2是兩個的線性矩陣,b1、b2是w1、w2對應的偏置矩陣。

    25、如上所述的混合神經網絡解碼器的lstm層,將上述編碼器lstm層得到的狀態信息注入,并分別提取當前用戶的軌跡信息vt和未來要觀看的視頻幀的圖像顯著性特征由于未來的軌跡信息是未知的,因此將輸入的未來軌跡信息設為0,得到與顯著性特征在時間維度相同的用戶軌跡數據再將未來軌跡數據和圖像顯著性特征結合,得到未來輸入特征

    26、基于所述的未來輸入特征值采用混合神經網絡解碼器的掩碼自注意力機制層,其自注意力值本文檔來自技高網...

    【技術保護點】

    1.一種基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,包括:

    2.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,所述步驟1中的用戶軌跡數據包括在某一時間段內用戶頭部的俯仰角度和偏航角度,以及用戶觀看的視頻各幀圖像的顯著性圖。

    3.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,設計一個360度視頻視口預測模型,該模型由一個編碼器和一個解碼器組成,編碼器用于提取出用戶歷史軌跡信息與圖像顯著性信息之間的特征值,解碼器則結合編碼器提供的特征值,對當前用戶的視口位置和未來一段時間的圖像顯著性特征進行處理,以獲得未來一段時間內的視口軌跡信息。

    4.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,所述步驟2中的模型編碼器包括:

    5.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,模型解碼器將編碼器的特征值和當前用戶信息的輸入轉換為所需的視口軌跡數據,步驟3中的模型解碼器包括:

    【技術特征摘要】

    1.一種基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,包括:

    2.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,所述步驟1中的用戶軌跡數據包括在某一時間段內用戶頭部的俯仰角度和偏航角度,以及用戶觀看的視頻各幀圖像的顯著性圖。

    3.根據權利要求1所述的基于混合神經網絡模型的360度視頻視口軌跡預測方法,其特征在于,設計一個360度視頻視口預測模型,該模型由一個編碼器和一個解碼器組成,編碼器用于提取出用戶歷史軌跡信...

    【專利技術屬性】
    技術研發人員:趙峰何皓煒周慧怡熊嘉偉劉孔清張祎鳴
    申請(專利權)人:桂林電子科技大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 狠狠躁天天躁无码中文字幕| 内射中出无码护士在线| 无码人妻少妇色欲AV一区二区| 无码精品黑人一区二区三区| 色综合久久久无码网中文| 亚洲精品无码专区2| 欧洲成人午夜精品无码区久久| 国产精品无码一区二区三区不卡 | 亚洲一区二区三区AV无码| 白嫩少妇激情无码| 亚洲AV日韩AV永久无码久久| 午夜成人无码福利免费视频| 亚洲爆乳精品无码一区二区| 亚洲中文字幕久久精品无码喷水| 蜜臀亚洲AV无码精品国产午夜.| 久久久久久国产精品免费无码| 亚洲国产精品无码久久九九 | 国产成人无码午夜福利软件| 日本精品人妻无码免费大全| 亚洲AV无码乱码在线观看裸奔| 精品无码国产自产拍在线观看蜜 | 亚洲中文久久精品无码1| 综合无码一区二区三区| 人妻无码一区二区三区| 天堂Av无码Av一区二区三区| 亚洲人AV在线无码影院观看| 久久久久亚洲精品无码蜜桃| 久久精品aⅴ无码中文字字幕不卡| 亚洲中文字幕无码爆乳AV| 国产综合无码一区二区辣椒| HEYZO无码综合国产精品| 国产成人无码免费看片软件 | 亚洲av无码片vr一区二区三区| 日韩精品无码一区二区三区| 老司机亚洲精品影院无码| 无码一区二区三区在线观看| 久久亚洲精品无码aⅴ大香| 久久久久亚洲AV无码永不| 中文字幕无码亚洲欧洲日韩| WWW久久无码天堂MV| 中文字幕av无码不卡免费|