帶你了解語音識別技術的發(fā)展歷史
Labs 導讀
語音識別相信大家并不陌生,近些年來語音識別技術的應用層出不窮,同時也更加智能。從開始我們簡單的詢問“你是誰”,到現(xiàn)在可以與我們進行多輪對話,理解我們的意思甚至是心情,語音識別已經實現(xiàn)了長足的發(fā)展??赡艽蠖鄶?shù)人覺得語音識別是近些年才出現(xiàn)的技術,其實不然,下面讓我們一起從語音技術的歷史展開來看。
Part 01 語音識別近70年發(fā)展史
1952年,貝爾實驗室發(fā)明了自動數(shù)字識別機,科學家對智能語音有了模糊的概念,可能這時科學家們就已經在暢想我們如今實現(xiàn)的這一切。
1964年,IBM在世界博覽會上推出了數(shù)字語音識別系統(tǒng),語音技術也自此走出了實驗室,為更多人知曉,貝爾實驗室的夢想也變成了更多人的夢想。
1980年,聲龍推出了第一款語音識別產品Dragon Dictate,這是第一款面向消費者的語音識別產品。雖然夢想第一次照進了現(xiàn)實,但其高達9000美元的售價,很大程度增加了智能語音技術的普及難度。
1997年,IBM推出它的第一個語音識別產品Via Voice。在中國市場,IBM適配了四川、上海、廣東等地方方言,Via Voice也真正的為更多消費者接觸、使用到。
2011年,蘋果首次在iphone4s上加入智能語音助手Siri。至此,智能語音與手機深度綁定,進入廣大消費者的日常生活。隨后國內各大手機廠商也先后跟進,為手機消費者提供了五彩繽紛的語音識別功能。
此后,語音識別技術的應用,并沒有局限于手機,而是擴展到了各種場景。從各種智能家居,如智能機器人、智能電視、智能加濕器等,到現(xiàn)在智能汽車,各大傳統(tǒng)廠商以及造車新勢力紛紛積極布局智能座艙??梢娭悄苷Z音技術已經在我們的衣食住行各個方面得到了廣泛應用。
Part 02 語音識別技術簡介
語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入。語音識別技術屬于人工智能方向的一個重要分支,涉及許多學科,如信號處理、計算機科學、語言學、聲學、生理學、心理學等,是人機自然交互技術中的關鍵環(huán)節(jié)。
Part 03 語音識別基本流程
ASR:指自動語音識別技術(Automatic Speech Recognition),是一種將人的語音轉換為文本的技術。
NLU:自然語言理解(Natural Language Understanding, NLU)是所有支持機器理解文本內容的方法模型或任務的總稱。
NLG:自然語言生成(Natural Language Generation,NLG)是一種通過計算機在特定交互目標下生成語言文本的自動化過程,其主要目的是能夠自動化構建高質量的生成人類能夠理解的語言文本。
上圖展示了一個語音識別的基本流程,用戶發(fā)出指令后,mic收集音頻,完成聲音到波形圖的轉換,通過波形圖與人類發(fā)音的波形圖做對比,可以識別出說的具體音節(jié),通過音節(jié),組合成詞、句子,再結合大數(shù)據(jù)分析出說的最匹配的話,然后NLU模塊開始工作,分析出這句話的意圖(intent)、域(Domain)等各種信息。分析出意圖后開始對話管理DM(Dialog Manager),通過后臺數(shù)據(jù)查詢應該給用戶什么反饋。然后交給NLG模塊,通過查出來的信息,生成自然語言,最后通過TTS模塊,將文字轉回成波形圖并播放聲音。
上面的流程涉及到的學科、知識都比較多,由于篇幅原因,不一一展開描述,在這里我節(jié)選出ASR來進行相對詳細些的學習。
Part 04 ASR實現(xiàn)原理簡單剖析
我們首先從ASR聲音源來看,當一位用戶發(fā)出指令,比如說:我愛你。這時麥克風會收集音頻到存儲設備。我們通過音頻處理軟件(如Audacity)打開后可以發(fā)現(xiàn)音頻是一段波形圖。
但是這段波形圖并沒有什么直觀的有意義的信息,它的高低只代表了聲音的大小,橫軸也僅僅是時間。語音識別本身是基于大數(shù)據(jù)的分析技術,分析的基礎是數(shù)據(jù)的準確,聲音大小和發(fā)音的時間長短很難有什么統(tǒng)計學的意義,所以此時我們需要對音頻進行處理。(這段波形圖是四句我愛你的波形圖)。
處理的一種常用方法是傅里葉變換,通過傅里葉變換,我們可以將時間維度的波形圖,轉換成頻率維度的波形圖。
為什么要處理成頻率的維度呢?
因為我們都知道,人類發(fā)出的聲音,能聽到的聲音大概在一個頻段內。這涉及到生物學、聲學的知識,我們人類的身體構造大致相同,這里想當然一下,盡管有個體差異、有性別差異,我們發(fā)出的聲音的頻率相差不會很大。這樣我們就把沒有統(tǒng)計意義的聲音波形圖處理成了頻率圖。
但是我們的時間維度也不能丟掉,我們在將聲音分割之后(這里涉及到聲音預處理、分幀等知識,暫不展開),可以根據(jù)本地的聲學模型做比對,看每一幀時間內發(fā)出的音素是什么。中文的話,音素指的是我們發(fā)音的一個字母,比如“我”由兩個音素組成:w和o。
到現(xiàn)在我們知道了如何將聲音從音頻文件處理成音素。之后再通過語言學、統(tǒng)計學等技術,結合具體語境,將音素組合成詞,將詞組成句子,從而識別出用戶說的語句,ASR大致流程就完成了。
上面的方式其實屬于語音識別各種技術中較為簡單的一部分,在實際應用中可能還包括各種各樣的技術,比如聲學特征提取的MFCC方式、上面聲音預處理的降噪、分幀、加窗、端點檢測等技術。
Part 05 語音識別及相關技術展望和我們能做的事情
隨著硬件技術提升、5G技術普及,我們可以在后端對海量的數(shù)據(jù)進行處理,依靠5G技術的穩(wěn)定和低時延,為用戶提供更可靠、順暢的服務,可以預見在不久的將來,語音識別及其相關技術必將更加智能、更加穩(wěn)定。中國移動作為國內擁有絕對用戶基礎數(shù)量優(yōu)勢的電信運營商,可以依靠5G優(yōu)勢、規(guī)模優(yōu)勢為用戶提供更好的服務,為智慧城市提供有力的保障,為國家發(fā)展作出更多的貢獻。