語音識別技術分析：語音變成文字其實沒有那么神秘2

那每幀音素對應哪個狀態呢？有個容易想到的辦法，看某幀對應哪個狀態的概率最大，那這幀就屬于哪個狀態。比如下面的示意圖，這幀對應 S3 狀態的概率最大，因此就讓這幀屬于 S3 狀態。那這些用到的概率從哪里讀取呢？有個叫“聲學模型”的東西，里面存了一大堆參數，通過這些參數，就可以知道幀和狀態對應的概率。獲取這一大堆參數的方法叫做“訓練”，需要使用巨大數量的語音數據，訓練的方法比較繁瑣，這里不講。但這樣做有一個問題：每一幀都會得到一個狀態號，最后整個語音就會得到一堆亂七八糟的狀態號，相鄰兩幀間的狀態號基本都不相同。假設語音有 1000 幀，每幀對應 1 個狀態，每 3 個狀態組合成一個音素，那么大概會組合成300個音素，但這段語音其實根本沒有這么多音素。如果真這么做，得到的狀態號可能根本無法組合成音素。實際上，相鄰幀的狀態應該大多數都是相同的才合理，因為每幀很短。解決這個問題的常用方法就是使用隱馬爾可夫模型（Hi......閱讀全文

語音識別技術分析：語音變成文字其實沒有那么神秘-1

　　簡要給大家介紹一下語音怎么變文字的吧。希望這個介紹能讓所有同學看懂。　　首先，我們知道聲音實際上是一種波。常見的 mp3、wmv 等格式都是壓縮格式，必須轉成非壓縮的純波形文件來處理，比如 Windows PCM 文件，也就是俗稱的 wav 文件。wav 文件里存儲的除了一個文件

2020-10-26 14:02 News WIKI 相關搜索