用于話音清晰度的訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的模擬硬件實(shí)現(xiàn)制造技術(shù)

技術(shù)編號：40671955 閱讀：12 留言：0更新日期：2024-03-18 19:08

提供了用于話音清晰度的卷積神經(jīng)網(wǎng)絡(luò)的模擬硬件實(shí)現(xiàn)的系統(tǒng)和方法。該方法包括獲得訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)拓?fù)浜蜋?quán)重。該方法還包括將神經(jīng)網(wǎng)絡(luò)拓?fù)渥儞Q成模擬部件的等效模擬網(wǎng)絡(luò)。該方法還包括基于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的權(quán)重來計算等效模擬網(wǎng)絡(luò)的權(quán)重矩陣。權(quán)重矩陣的每個元素表示等效模擬網(wǎng)絡(luò)的模擬部件之間的一個或更多個連接。該方法還包括基于權(quán)重矩陣來生成用于實(shí)現(xiàn)等效模擬網(wǎng)絡(luò)的示意性模型，包括選擇模擬部件的部件值。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
【國外來華專利技術(shù)】

所公開的實(shí)現(xiàn)總體上涉及神經(jīng)網(wǎng)絡(luò)，并且更具體地，涉及用于話音清晰度(voiceclarity)的訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的硬件實(shí)現(xiàn)的系統(tǒng)和方法。

技術(shù)介紹

0、背景

1、傳統(tǒng)硬件未能跟上神經(jīng)網(wǎng)絡(luò)中的創(chuàng)新和基于機(jī)器學(xué)習(xí)的應(yīng)用的日益普及。隨著數(shù)字微處理器的發(fā)展處于停滯，神經(jīng)網(wǎng)絡(luò)的復(fù)雜性繼續(xù)超過cpu和gpu的計算能力。基于脈沖神經(jīng)網(wǎng)絡(luò)(spike?neural?network)的神經(jīng)形態(tài)(neuromorphic)處理器(例如loihi和truenorth)在它們的應(yīng)用中被限制。對于類似gpu的架構(gòu)，這樣的架構(gòu)的功率和速度受數(shù)據(jù)傳輸速度限制。數(shù)據(jù)傳輸可以消耗高達(dá)80％的芯片功率，且可以顯著影響計算的速度。邊緣應(yīng)用(edge?application)要求低功率消耗，但目前沒有消耗小于50毫瓦的功率的已知高性能硬件實(shí)現(xiàn)。

2、使用交叉開關(guān)(cross-bar)技術(shù)的基于憶阻器的架構(gòu)對于制造循環(huán)(recurrent)神經(jīng)網(wǎng)絡(luò)和前饋(feed-forward)神經(jīng)網(wǎng)絡(luò)仍然是不實(shí)用的。例如，基于憶阻器的交叉開關(guān)具有許多缺點(diǎn)，包括使它們變得不實(shí)用的在操作期間的電流泄漏和高時延。此外，在制造基于憶阻器的交叉開關(guān)時存在可靠性問題，特別是當(dāng)神經(jīng)網(wǎng)絡(luò)具有負(fù)權(quán)重和正權(quán)重時。對于具有許多神經(jīng)元的大型神經(jīng)網(wǎng)絡(luò)，在高維度處，基于憶阻器的交叉開關(guān)不能用于不同信號的同時傳播，這在神經(jīng)元由運(yùn)算放大器表示時又使信號的求和變得復(fù)雜。此外，基于憶阻器的模擬集成電路具有許多限制，例如電阻狀態(tài)的數(shù)量小、當(dāng)形成憶阻器時的第一次循環(huán)問題、當(dāng)訓(xùn)練憶阻器時的溝道形成的復(fù)

3、此外，神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練過程對神經(jīng)網(wǎng)絡(luò)的硬件實(shí)現(xiàn)提出了獨(dú)特的挑戰(zhàn)。訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)用于特定的推斷(inferencing)任務(wù)，例如分類。一旦神經(jīng)網(wǎng)絡(luò)被訓(xùn)練，硬件等價物就被制造。當(dāng)神經(jīng)網(wǎng)絡(luò)被再訓(xùn)練時，硬件制造過程被重復(fù)，抬高了成本。雖然一些可重新配置的硬件解決方案存在，但是這樣的硬件不容易被大規(guī)模生產(chǎn)，并且比不可重新配置的硬件花費(fèi)多得多(例如，花費(fèi)多5倍)。此外，邊緣環(huán)境(例如智能家居應(yīng)用)本身不需要可重編程性。例如，神經(jīng)網(wǎng)絡(luò)的所有應(yīng)用的85％在操作期間不需要任何再訓(xùn)練，因此片上學(xué)習(xí)不是那么有用。此外，邊緣應(yīng)用包括噪聲環(huán)境，其可以使可重編程硬件變得不可靠。

4、話音傳輸包括人和人機(jī)界面之間的大部分通信，并且大大超過視頻和手寫通信。當(dāng)話音信號被壓縮或數(shù)字化以進(jìn)行傳輸時，需要保持話音傳輸?shù)那逦取鹘y(tǒng)上，多種噪聲抑制和噪聲濾波方法和裝置處理不清晰的話音信號并去除至少一些不想要的噪聲。一些傳統(tǒng)技術(shù)使用麥克風(fēng)捕獲噪聲并生成聲音，該聲音有效地抵消掉在收聽者周圍檢測到的不想要的噪聲。這種技術(shù)在耳機(jī)中更普遍，特別是在噪聲消除耳機(jī)中。還有基于特定噪聲源的頻譜質(zhì)量或使用更精細(xì)的算法(例如，馬爾可夫過程、快速傅立葉變換方法和各種噪聲檢測自適應(yīng)算法)來抑制某些噪聲的技術(shù)。

5、最近，神經(jīng)網(wǎng)絡(luò)被用于分析包含話音和噪聲的混合的信號，并基于可歸因于話音的特定特征有效地提取大部分包含話音的信號。這種神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練，并且實(shí)質(zhì)上作為運(yùn)行在強(qiáng)大計算機(jī)上的程序來實(shí)現(xiàn)。這些計算機(jī)消耗大量的電力和計算能力。傳統(tǒng)的解決方案通常受到訓(xùn)練特征的限制，不能提供實(shí)時處理，并且僅限于處理特定的記錄話音信號。目前，話音通信主要經(jīng)由蜂窩或固定電話進(jìn)行。傳統(tǒng)裝備缺乏有效處理話音信號和抑制不想要的噪聲的計算能力和/或電力。即使采用復(fù)雜的噪聲消除技術(shù)，能夠被有效抑制的噪聲類型也非常有限。常見的是具有不想要的干擾，例如狗叫聲、關(guān)門聲、緊急警笛聲、汽車?yán)嚷暫皖愃频牟豢深A(yù)測的干擾，對于傳輸清晰話音信號而言，這些干擾仍然是背景噪聲。

6、非話音噪聲或信號可能來自揚(yáng)聲器的鄰近區(qū)域、麥克風(fēng)附近或用于將聲音變換為電信號的其他設(shè)備。這種噪聲通常被稱為起源處(at-origin)的背景噪聲。對于這種噪聲信號，離麥克風(fēng)較遠(yuǎn)的任何背景對話或人的話音都可以被認(rèn)為是噪聲。其他非話音噪聲可能來自信號的處理和傳輸期間，例如壓縮、模數(shù)轉(zhuǎn)換、頻譜限制、受長度、頻譜或信息大小限制的數(shù)據(jù)包(packet)的分解(breakdown)。這種噪聲發(fā)生在傳輸期間以及對應(yīng)的反向步驟期間。當(dāng)幾個話音/噪聲信號混合在一起時，例如在電話會議或多人通信中，與每個信號相關(guān)聯(lián)的噪聲被混合，從而使話音清晰化的任務(wù)和挑戰(zhàn)進(jìn)一步復(fù)雜化。此外，當(dāng)話音信號被進(jìn)一步處理以導(dǎo)致經(jīng)由揚(yáng)聲器、耳機(jī)或其他裝置或方法在接收者的耳朵附近生成實(shí)際聲音(例如，用于人對人的通信)時，接收者附近的周圍環(huán)境可能會引入另外的噪聲或不想要的信號。

技術(shù)實(shí)現(xiàn)思路

0、概述

1、因此，存在對解決至少一些上面指出的缺陷的方法、電路和/或接口的需要。對訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)建模并根據(jù)本文所述的技術(shù)制造的模擬電路可以提供提高的每瓦性能的優(yōu)點(diǎn)，在邊緣環(huán)境中實(shí)現(xiàn)硬件解決方案方面可以是有用的，并可以處理各種應(yīng)用，例如無人機(jī)導(dǎo)航和自動駕駛汽車。對于較大的神經(jīng)網(wǎng)絡(luò)，由所提出的制造方法和/或模擬網(wǎng)絡(luò)架構(gòu)提供的成本優(yōu)點(diǎn)甚至更加明顯。此外，神經(jīng)網(wǎng)絡(luò)的模擬硬件實(shí)現(xiàn)提供了提高的并行性和神經(jīng)形態(tài)。此外，神經(jīng)形態(tài)模擬部件當(dāng)與數(shù)字對應(yīng)物相比時對噪聲和溫度變化不敏感。

2、根據(jù)本文描述的技術(shù)制造的芯片在尺寸、功率和性能方面提供優(yōu)于傳統(tǒng)系統(tǒng)的數(shù)量級改進(jìn)，并且對于邊緣環(huán)境(包括對于再訓(xùn)練目的)是理想的。這樣的模擬神經(jīng)形態(tài)芯片可以用于實(shí)現(xiàn)邊緣計算應(yīng)用或用在物聯(lián)網(wǎng)(iot)環(huán)境中。由于模擬硬件，可以消耗超過80-90％的功率的初步處理(例如，用于圖像識別的描述符的形成)可以在芯片上移動，從而降低能量消耗和網(wǎng)絡(luò)負(fù)載，這可以打開新的應(yīng)用市場。

3、各種邊緣應(yīng)用可以受益于這樣的模擬硬件的使用。例如，對于視頻處理，本文描述的技術(shù)可以用于包括到cmos傳感器的直接連接而無需數(shù)字接口。各種其他視頻處理應(yīng)用包括汽車的路標(biāo)識別、用于機(jī)器人的基于攝像機(jī)的真實(shí)深度和/或同步定位和地圖構(gòu)建、沒有服務(wù)器連接的房間訪問控制以及對安全和醫(yī)療保健的始終在線解決方案。這樣的芯片可以用于雷達(dá)和激光雷達(dá)的數(shù)據(jù)處理以及用于低水平數(shù)據(jù)融合。這樣的技術(shù)可以用于實(shí)現(xiàn)大型電池組的電池管理功能、沒有到數(shù)據(jù)中心的連接的聲音/話音處理、在移動設(shè)備上的話音識別、iot傳感器的喚醒語音指令、將一種語言翻譯成另一種語言的翻譯器、具有低信號強(qiáng)度的iot的大型傳感器陣列和/或具有數(shù)百個傳感器的可配置過程控制。

4、根據(jù)一些實(shí)現(xiàn)，神經(jīng)形態(tài)模擬芯片可以在標(biāo)準(zhǔn)的基于軟件的神經(jīng)網(wǎng)絡(luò)仿真/訓(xùn)練之后被大規(guī)模生產(chǎn)。客戶端的神經(jīng)網(wǎng)絡(luò)可以用定制的芯片設(shè)計和生產(chǎn)被容易移植，而不管神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如何。此外，根據(jù)一些實(shí)現(xiàn)，提供了準(zhǔn)備好制作片上解決方案(網(wǎng)絡(luò)仿真器)的庫。這樣的解決方案只需要訓(xùn)練一次光刻掩模更換，其后芯片可以被大規(guī)模生產(chǎn)。例如，在芯片生產(chǎn)期間，只有部分的光刻掩模需要被更換。

5、本文描述的技術(shù)可以用于設(shè)計和/或制造在數(shù)學(xué)上等效于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)(前饋或者循環(huán)神經(jīng)網(wǎng)絡(luò))的模擬本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種用于話音清晰度的訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)的模擬硬件實(shí)現(xiàn)的方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ǜ盗⑷~變換層和傅立葉逆變換層。

3.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ǎ壕矸e層、最大池化層和密集連接層中的一個或更多個。

4.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ň矸e層，并且對所述神經(jīng)網(wǎng)絡(luò)拓?fù)溥M(jìn)行變換包括：

5.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ㄗ畲蟪鼗瘜樱⑶覍λ錾窠?jīng)網(wǎng)絡(luò)拓?fù)溥M(jìn)行變換包括為所述最大池化層生成具有最大輸入計數(shù)的多層模擬神經(jīng)元網(wǎng)絡(luò)。

6.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生成包括布置在兩層中的兩個SNM的雙輸入電路圖，其中最后一層的SNM最多具有兩個輸入。

7.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生成包括布置在三層中的三個SNM的三輸入電路圖，其中最后一層的SNM最多具有三個輸入。

8.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生

9.根據(jù)權(quán)利要求8所述的方法，還包括：

10.根據(jù)權(quán)利要求9所述的方法，還包括最小化所述計算樹的層數(shù)。

11.根據(jù)權(quán)利要求9所述的方法，還包括相對于使用所述三輸入電路圖和所述雙輸入電路圖，優(yōu)先使用所述四輸入電路圖。

12.根據(jù)權(quán)利要求9所述的方法，還包括(i)定義所述多層網(wǎng)絡(luò)的最后一層的模擬神經(jīng)元，以執(zhí)行除ReLU之外的激活函數(shù)，以及(ii)定義所述多層模擬網(wǎng)絡(luò)的所有其他神經(jīng)元以執(zhí)行ReLU，而不改變所述多層網(wǎng)絡(luò)的最終輸出。

13.根據(jù)權(quán)利要求1所述的方法，其中，所述訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的每一層基于相應(yīng)的數(shù)學(xué)函數(shù)計算相應(yīng)的輸出，并且將所述神經(jīng)網(wǎng)絡(luò)拓?fù)渥儞Q為模擬部件的所述等效模擬網(wǎng)絡(luò)包括：

14.根據(jù)權(quán)利要求13所述的方法，其中，所述一個或更多個函數(shù)塊包括具有塊輸出的加權(quán)求和塊，其中ReLU是修正線性單元(ReLU)激活函數(shù)或類似激活函數(shù)，Vi表示第i個輸入，wi表示對應(yīng)于第i個輸入的權(quán)重，bias表示偏差值，并且∑是求和運(yùn)算符。

15.根據(jù)權(quán)利要求13所述的方法，其中，所述一個或更多個函數(shù)塊包括具有塊輸出的加權(quán)求和塊，其中ReLU_X是通過正值X限制輸出信號的修正線性單元(ReLU)激活函數(shù)或類似激活函數(shù)，Vi表示第i個輸入，wi表示對應(yīng)于第i個輸入的權(quán)重，bias表示偏差值，并且∑是求和運(yùn)算符。

16.根據(jù)權(quán)利要求3所述的方法，其中：

17.根據(jù)權(quán)利要求1所述的方法，其中：

18.根據(jù)權(quán)利要求1所述的方法，還包括：

19.一種用于神經(jīng)網(wǎng)絡(luò)的硬件實(shí)現(xiàn)的系統(tǒng)，包括：

20.一種話音傳輸設(shè)備，包括：

21.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，生成所述示意性模型還包括：

22.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，所述話音傳輸設(shè)備集成到蜂窩電話中。

23.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，來自蜂窩電話的麥克風(fēng)的輸入被輸入到所述集成電路。

24.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，來自所述集成電路的輸出被輸入到蜂窩電話的揚(yáng)聲器。

25.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，所述集成電路耦合到一個或更多個其它噪聲消除設(shè)備。

26.根據(jù)權(quán)利要求20所述的話音傳輸設(shè)備，其中，所述集成電路耦合到在所述話音傳輸設(shè)備上執(zhí)行的一個或更多個降噪軟件程序。

...

【技術(shù)特征摘要】
【國外來華專利技術(shù)】

1.一種用于話音清晰度的訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)的模擬硬件實(shí)現(xiàn)的方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ǜ盗⑷~變換層和傅立葉逆變換層。

3.根據(jù)權(quán)利要求1所述的方法，其中，所述神經(jīng)網(wǎng)絡(luò)拓?fù)浒ǎ壕矸e層、最大池化層和密集連接層中的一個或更多個。

6.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生成包括布置在兩層中的兩個snm的雙輸入電路圖，其中最后一層的snm最多具有兩個輸入。

7.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生成包括布置在三層中的三個snm的三輸入電路圖，其中最后一層的snm最多具有三個輸入。

8.根據(jù)權(quán)利要求5所述的方法，其中，生成所述多層模擬神經(jīng)元網(wǎng)絡(luò)包括生成包括布置在三層中的四個snm的四輸入電路圖，其中最后一層的snm最多具有四個輸入。

9.根據(jù)權(quán)利要求8所述的方法，還包括：

10.根據(jù)權(quán)利要求9所述的方法，還包括最小化所述計算樹的層數(shù)。

11.根據(jù)權(quán)利要求9所述的方法，還包括相對于使用所述三輸入電路圖和所述雙輸入電路圖，優(yōu)先使用所述四輸入電路圖。

12.根據(jù)權(quán)利要求9所述的方法，還包括(i)定義所述多層網(wǎng)絡(luò)的最后一層的模擬神經(jīng)元，以執(zhí)行除relu之外的激活函數(shù)，以及(ii)定義所述多層模擬網(wǎng)絡(luò)的所有其他神經(jīng)元以執(zhí)行relu，而不改變所述多層網(wǎng)絡(luò)的最終輸出。

13.根據(jù)權(quán)利要求1所...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：波里斯·瑪索夫，亞歷山大·提莫非杰弗斯，尼可萊·科索夫，德米特里·高朵夫斯基，
申請(專利權(quán))人：普立恩科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)