聲音采樣越廣泛識別準確率越高,而語音樣本庫越龐大,用於搜索匹配的時間就會越久導致反應時間的延長,因此語音樣本的抽樣壓縮和語音搜索匹配算法一直是克裏優化的倆個重點。
克裏一直在不停地模擬改進提取語音語義特征值的算法,通過不斷壓縮冗餘值,在保持不失真的情況下持續不斷縮小語音樣本語料庫大小,另外一方麵也不斷改進對語音語料庫智能搜索匹配算法。
優化算法杜克幫不了什麽忙,但是收集盡可能多的語音樣本杜克卻沒有問題,所以杜克的每一天都過著一種非常充實的生活,日複一日地搜索下載不同類型的語音樣本供克裏分析提煉,同時不斷去學習理解克裏所創造的這些全新的處理算法,要敲開麻省理工的大門。
杜克必須要有一篇體現自己能力的世界領先水準的語音識別基礎理論創新性論文,可是在克裏的知識庫中並沒有現成的語音識別知識,這些對於克裏來說太老舊了,老舊到比萊姆都沒有為克裏增加這些知識。
而克裏現在做的就是在地球上現有語音識別理論和算法基礎上,利用他強悍到無邊的模擬能力,不斷地模擬各種不同的語音處理算法。
通過模擬來找到一種更加有效的--這種方法雖然有些笨拙,但是有了克裏超強的運算能力,畢竟每秒鍾成千上萬種可能算法都可以模擬,使得這種笨拙的方法也有相當的效果,找出了好幾種可能的優化算法,將識別率和反應時間提升到了一個新的高度。
可是要將這些成果用地球人能夠理解的語言和理論寫出來,還要讓人能夠看懂,不管是對克裏還是杜克來說都是一個新挑戰,因為克裏不是以01為核心的機械二進製思維模式,而是生物多態思維模式。
盡管克裏現在已經能夠瞬間同時模擬出地球上常見十多種不同性能PC機虛擬機--為了讓克裏能夠準確了解地球上電腦的運算能力,杜克買了四台不同接口的主機和接近二十塊市麵主流PC機CPU提供給克裏分析和測試性能基準,然後克裏根據這些配置的性能來進行虛擬對應的模擬器。
可是這些特殊的虛擬機由於不需要讓人理解,所以克裏完全可以按照自己的運算方式來創造,因此性能雖然相當,但是實現模式卻大相徑庭,比起地球上RISC和CISC倆種不同架構的CPU來說,複雜程度都不是一個數量級的。
因此在克裏完成了按照他自己模式實現的算法後,還要按照地球上01規則來重新實現,這個對於克裏來說確實是一種巨大的挑戰了,更別說論文還要在此基礎上再次抽象,不光要有軟件實現算法,還要建立起以地球數學基礎能夠證明的數學模型。
因此克裏幾乎二十四小時不間斷地不斷運轉著,最終模擬算法能夠在最低基準上麵實現1秒內達到97%識別率,而在雙核2G主頻電腦上實現1秒內99%以上識別率之後,足足又用了倆個周的時間。
在杜克看完十幾本數學專著,下載研究了好幾個開源語音識別軟件的基礎上,克裏才完成了語音識別新算法的論文和協助杜克開發完成一個在地球電腦上運行的語音識別軟件。而這個語音識別軟件的第一個應用就是包裝成為一種語音輸入法。
海角論壇。完成語音識別軟件和論文寫作倆個任務,杜克現在是一身的輕鬆。
他注冊換了一個
本章尚未完結,請點擊下一頁繼續閱讀---->>>