第十四章 突破!新輸入法神器(第1/2頁)
章節報錯
杜克進入一種入魔一樣的研究狀態,他現在的時間非常寶貴,完全沒有多少可以浪費的空間,所以在吃完後就迅速回到自己那個小小的家裡。坐在24小時不間斷下載的電腦面前,他瘋狂搜尋下載各種語音片段資料,交給克里進行語音語義分析及基礎知識庫的建設。
自從搬到出租屋後杜克已經瘋狂在網上下載了數千各種環境和語境下的語音片段,從電視電臺新聞片段到影視劇對白、動物世界或是國家地理頻道的科教解說片段,以及各種偷拍、自拍、偽自拍生活現場片段,感謝酷溜土豆、youtube,還有BT和電驢,讓杜克知道原來世界還有如此豐富多彩聲音。
杜克收集的如此眾多聲音索材對於克里處理能力來說卻彷彿是滄海一粟,往往剛剛輸入進去,克里就運算解析出來該片段的語音語義特徵,從而為語音識別的語音語義特徵庫增加一份新的標本元素,越是不同的語音片段越有價值。
這就像一個人生活過的地方越多,就越能聽出不同地方口音是一個道理,每個聲音都是有一些特殊特徵和普遍特徵構成的,現在的語音識別軟體對於標準發音的識別率其實已經很不錯了。
如IBM在很多年前就推出語音識別輸入系統ViaVoice,在安靜環境和標準發音情況下軟體識別率可以達到實用級別。
可惜實際運用環境不會那麼理想,而是就像杜克寢室中4個人一樣千差萬別,雖然大家說的都是中國話,但是四個來自不同地方的人的口音卻大相徑庭,剛剛住在一起的時候四個人溝通經常有些問題,但是大家很快就適應下來。
人腦強悍的學習能力絕對不是當今電腦所能夠比擬的。而現有的語音識別軟體卻沒有這麼強悍的學習適應能力,也就是說它沒有用來識別這種語音特徵差異的知識庫,當然就無法將一些未知型別的發音很好的識別出來。
不同口音的識別和環境噪音的排除是語音識別倆個難題,要解決這些問題需要大量的第一手語音資料片段來建立一個海量的語音特徵知識庫,或者是開發出像克里這般高度智慧的超級電腦。
克里根據杜克下載的理論資料,結合各種語音片段分析,不斷對語音識別基礎演算法進行了更新,並且生成不同的語音識別模擬器這是主要考慮到地球現在主流電腦的運算水平比起克里來說實在太低階。
以模擬iphone4s的50%運算能力為最低基準,克里模擬出不同效能情況下該語音識別演算法的準確率和反應時間,原始版本從最初基準效能下5秒內能夠達到90%的識別準確率當然這個成績已經遠超現在地球上所有語音識別軟體水準。
要知道這個90%準確率是用數千段不同語境的不同口音中英文語音資訊進行模擬識別檢驗,也就是說基本上考慮了各種口音及噪音的過濾處理。
這個成績已經比現在只會聽英文的蘋果Siri要強多了,畢竟Siri現在能夠識別的也是比較標準的英文發音。不信你拿印度口音和新加坡口音的英語錄音片段試試看Siri能夠識別出多少來。
如果是在一臺模擬效能接近雙核2G以上主頻電腦上,這個指標的識別水平將會提升到2秒以內達到97%以上準確率,反應時間同識別準確率其實有些衝突,因為要識別更加準確必須要原始版本的語音語料庫基礎資料來源更加豐富。
聲音取樣越廣泛識別準確率越高,而語音樣本庫越龐大,用於搜尋匹配的時間就會越久導致反應時間的延長,因此語音樣本的抽樣壓縮和語音搜尋匹配演算法一直是克里最佳化的倆個重點。
克里一直在不停地模擬改進提取語音語義特徵值的演算法,透過不斷壓縮冗餘值,在保持不失真的情況下持續不斷縮小語音樣本語料庫大小,另外一方面也不斷改進對語音語料庫智慧搜尋匹配演算法。
最佳化演算法杜克幫不了什麼忙,但是收集儘可能多的語音樣本杜克卻沒有問題,所以杜克的每一天都過著一種非常充實的生活,日復一日地搜尋下載不同型別的語音樣本供克里分析提煉,同時不斷去學習理解克里所創造的這些全新的處理演算法,要敲開麻省理工的大門。
杜克必須要有一篇體現自己能力的世界領先水準的語音識別基礎理論創新性論文,可是在克里的知識庫中並沒有現成的語音識別知識,這些對於克里來說太老舊了,老舊到比萊姆都沒有為克里增加這些知識。
而克里現在做的就是在地球上現有語音識別理論和演算法基礎上,利用他強悍到無邊的模擬能力,不斷地模擬各種不同的語音處理演算法。
透過模擬來找到一種更加有效的這種方法雖然有些笨拙,但是有了克里超強的運算能力,畢竟每秒鐘成千上萬種可能演算法都可以模擬,使得這種笨拙的方法也有相當的效果,找出了好幾種可能的最佳化演算法,將識別率和反應時間提升到了一個新的高度。
可是要將這些成果用地球人能夠理解的語言和理論寫出來,還要讓人能夠看懂,不管是對克里還是杜克來說都是一個新挑戰,因為克里不是以01為核心的機械二進位制思維模式,而是生物多型思維模式。
儘管克里現在已經能夠瞬間同時模擬出地球上常見十多種不同效能PC機虛擬機器為了讓克里能夠準確瞭解地球上電腦的運算能力,杜克買了四臺不同介面的主機和接近二十塊市面主流PC機CPU提供給克里分析和測試效能基準,然後克里根據這些配置的效能來進行虛擬對應的模擬器。
可是這些特殊的虛擬機器由於不需要讓人理解,所以克里完全可以按照自己的運算方式來創造,因此效能雖然相當,但是實現模式卻大相徑庭,比起地球上RISC和CISC倆種不同架構的CPU來說,複雜程度都不是一個數量級的。