欧洲免费无码视频在线,亚洲日韩av中文字幕高清一区二区,亚洲人成人77777网站,韩国特黄毛片一级毛片免费,精品国产欧美,成人午夜精选视频在线观看免费,五月情天丁香宗合成人网

薈聚奇文、博采眾長(zhǎng)、見(jiàn)賢思齊
當(dāng)前位置:公文素材庫(kù) > 報(bào)告體會(huì) > 工作報(bào)告 > 語(yǔ)音識(shí)別調(diào)查報(bào)告范文

語(yǔ)音識(shí)別調(diào)查報(bào)告范文

網(wǎng)站:公文素材庫(kù) | 時(shí)間:2019-05-05 22:47:19 | 移動(dòng)端:語(yǔ)音識(shí)別調(diào)查報(bào)告范文

  讓計(jì)算機(jī)能聽(tīng)懂人的語(yǔ)言,是自計(jì)算機(jī)誕生以來(lái)人類便夢(mèng)寐以求的,Intel創(chuàng)辦人Gordon Moore曾說(shuō),語(yǔ)音技術(shù)是影響未來(lái)科技發(fā)展最關(guān)鍵的技術(shù);IBM總裁Lou Gerstner指出,有朝一日,將有數(shù)十億的人運(yùn)用自然語(yǔ)言在Intern et上瀏覽、查詢【’]。隨著移動(dòng)電話、掌上電腦、PDA等移動(dòng)設(shè)備以及移動(dòng)計(jì)算環(huán)境中各類智能設(shè)備的廣泛應(yīng)用,使用語(yǔ)音作為用戶操作界面的要求越來(lái)越迫切,移動(dòng)設(shè)備體積小,計(jì)算能力和存儲(chǔ)空間有限,其使用場(chǎng)合又往往處于復(fù)雜、多變的噪聲環(huán)境中,使得基于這類設(shè)備的語(yǔ)音識(shí)別實(shí)用技術(shù)面臨許多挑戰(zhàn)。如今語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域不斷拓展,在軍事、工業(yè)、家電、消費(fèi)電子、交通等各方面都得到了廣泛的應(yīng)用。常見(jiàn)的應(yīng)用有: (1>語(yǔ)音控制語(yǔ)音識(shí)別技術(shù)可實(shí)現(xiàn)這樣的功能,利用聲音來(lái)控制一臺(tái)機(jī)器設(shè)備的運(yùn)行。例如現(xiàn)在的智能家電,就可以通過(guò)語(yǔ)音控制其開(kāi)關(guān)和其他功能的實(shí)現(xiàn)。語(yǔ)音控制一方面可以提高工作效率,另一方面也可以在人們手腳被占用的時(shí)候?qū)崿F(xiàn)控制,解放人們的雙手。


  (2)語(yǔ)音輸入利用語(yǔ)音識(shí)別技術(shù),將人們的聲音信號(hào)直接轉(zhuǎn)換成相應(yīng)的文字輸入計(jì)算機(jī)系統(tǒng),不僅可以代替鍵盤(pán)使文字的輸入工作更加省力和高效,同時(shí)也為那些不熟悉鍵盤(pán)輸入法的人們提供了一種新的文字輸入途徑。

  (3)身份識(shí)別和指紋類似,人們的聲紋也具有較強(qiáng)的排他性,因此可以利用語(yǔ)音識(shí)別來(lái)進(jìn)行身份的識(shí)別和確認(rèn)工作。

  語(yǔ)音識(shí)別一般有廣義和狹義之分。廣義的語(yǔ)音識(shí)別指的是從語(yǔ)音信號(hào)中提取出任何人們感興趣內(nèi)容的技術(shù),而我們通常所說(shuō)的語(yǔ)音識(shí)別指的是狹義的語(yǔ)音識(shí)別,即從語(yǔ)音信號(hào)中提取出文本內(nèi)容的技術(shù)。也就是通過(guò)算法,將語(yǔ)音轉(zhuǎn)換成文本的過(guò)程[}2}根據(jù)識(shí)別的對(duì)象不同,語(yǔ)音識(shí)別大致分為3類:孤立詞識(shí)別,連續(xù)語(yǔ)音識(shí)別,關(guān)鍵詞識(shí)別。

  其中孤立詞識(shí)別是識(shí)別事先己知的孤立詞,如“開(kāi)始”、“結(jié)束”等;連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音,如一個(gè)句子或者一段話;連續(xù)語(yǔ)音流中的關(guān)鍵詞檢測(cè)針對(duì)的也是連續(xù)語(yǔ)音,但它并不要求識(shí)別全部文字,而只是檢測(cè)己知關(guān)鍵詞在何處出現(xiàn),如在一段話中檢測(cè)“西安”、“中國(guó)”這兩個(gè)詞。根據(jù)語(yǔ)音識(shí)別系統(tǒng)所針對(duì)的發(fā)音人,可以將語(yǔ)音識(shí)別分為2類:特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別。 其中前者只能識(shí)別特定的一個(gè)人或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用。顯然,非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但它要比特定人的識(shí)別困難得多。另外,根據(jù)語(yǔ)音設(shè)備和通道,可以分為桌面CPC)語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別和嵌入式設(shè)備(手機(jī)、PDA等)語(yǔ)音識(shí)別。不同的采集通道會(huì)使發(fā)音的聲學(xué)特性產(chǎn)生變形,因此需要構(gòu)造各自的識(shí)別系統(tǒng)。

  雖然當(dāng)前語(yǔ)音識(shí)別技術(shù)在實(shí)際應(yīng)用中取得了較好效果,但我們也應(yīng)清醒的認(rèn)識(shí)到其中存在的問(wèn)題并對(duì)其進(jìn)行深入的分析。目前國(guó)內(nèi)外對(duì)語(yǔ)音識(shí)別技術(shù)研究存在的主要問(wèn)題有:

  (1>標(biāo)準(zhǔn)輸入的問(wèn)題缺乏標(biāo)準(zhǔn)輸入是目前語(yǔ)音識(shí)別面臨的主要難

  題之一。因?yàn)檎Z(yǔ)言、方言之間的差異,

  所以很難確定一個(gè)標(biāo)準(zhǔn)的輸入,導(dǎo)致實(shí)際使用時(shí)誤識(shí)率過(guò)高,較難達(dá)到人們預(yù)期的效果。即使語(yǔ)言相同,我們每個(gè)人的發(fā)音習(xí)慣也不盡相同,這就導(dǎo)致了根據(jù)某些人的語(yǔ)音數(shù)據(jù)

  設(shè)計(jì)出來(lái)的語(yǔ)音識(shí)別系統(tǒng)很難適應(yīng)所有的使用者。因此目前絕大多數(shù)的語(yǔ)音識(shí)別系統(tǒng)在使用前,都需要使用者對(duì)其進(jìn)行適應(yīng)性訓(xùn)練,使其習(xí)慣自己的發(fā)音,以提高識(shí)別的正確率。另外,對(duì)語(yǔ)音識(shí)別的輸入設(shè)備缺乏統(tǒng)一標(biāo)準(zhǔn)也是導(dǎo)致語(yǔ)音輸入不標(biāo)準(zhǔn)的重要方面。

  因?yàn)楫?dāng)前的錄音設(shè)備都是以人能聽(tīng)清,聽(tīng)懂為標(biāo)準(zhǔn)進(jìn)行設(shè)計(jì)的,至于如何調(diào)整輸入設(shè)備的各項(xiàng)參數(shù),使其適應(yīng)計(jì)算機(jī)識(shí)別的特點(diǎn),讓識(shí)別系統(tǒng)能夠更好的分辨,對(duì)此我們還需要做大量的數(shù)據(jù)收集,分析和研究工作。

  (2)環(huán)境噪聲的問(wèn)題環(huán)境噪聲的干擾也是語(yǔ)音識(shí)別研究中一個(gè)不可回避的問(wèn)題。在實(shí)際應(yīng)用時(shí),我們并不能保證識(shí)別系統(tǒng)始終處于一個(gè)安靜的環(huán)境中工作。大多數(shù)的應(yīng)用場(chǎng)景總是存在著環(huán)境噪聲,且不同場(chǎng)景的噪聲也各不相同。我們?cè)谡Z(yǔ)音識(shí)別系統(tǒng)開(kāi)發(fā)時(shí)很難做到訓(xùn)練環(huán)境和真實(shí)環(huán)境的匹配,導(dǎo)致很多識(shí)別系統(tǒng)在實(shí)驗(yàn)室環(huán)境下識(shí)別效果很好,但是到了實(shí)際應(yīng)用的場(chǎng)景,一旦遇到較強(qiáng)的環(huán)境噪聲,識(shí)別的效果就大打折扣了。所以說(shuō),噪聲環(huán)境中語(yǔ)音識(shí)別要比安靜環(huán)境下困難很多。目前解決環(huán)境噪聲干擾問(wèn)題的途徑主要有三個(gè):一是在語(yǔ)音識(shí)別的前端,即語(yǔ)音輸入環(huán)節(jié),開(kāi)發(fā)抗噪性能更好的語(yǔ)音輸入設(shè)備,從源頭上降低語(yǔ)音信號(hào)中的噪聲分量;二是在對(duì)己經(jīng)混入了噪聲的語(yǔ)

  音信號(hào)進(jìn)行特征提取時(shí),選取抗噪性高的特征參數(shù);三是在對(duì)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行訓(xùn)練時(shí),充分考慮到噪聲的干擾問(wèn)題,進(jìn)行針對(duì)性的訓(xùn)練以提高系統(tǒng)識(shí)別的魯棒性。

  (3)協(xié)同發(fā)音現(xiàn)象:人們?cè)诮涣鲿r(shí)很少一個(gè)字一個(gè)字的孤立發(fā)音,多數(shù)情況下都是按照自己的習(xí)慣連續(xù)發(fā)音,這時(shí)原本孤立的聲學(xué)單元就會(huì)受到上下文的影響而發(fā)生模糊、變異。因此無(wú)論在語(yǔ)音識(shí)別系統(tǒng)中選取何種建模單元(詞、音節(jié)、聲韻母、音素),都需要對(duì)這些單元之間的相互影響做細(xì)化處理,這樣就會(huì)帶來(lái)模型數(shù)目的劇增和訓(xùn)練數(shù)據(jù)的相對(duì)醫(yī)乏。

  語(yǔ)音信號(hào)處理是以語(yǔ)音學(xué)和數(shù)字信號(hào)處理為基礎(chǔ),涉及語(yǔ)言學(xué)、模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能、信息論等領(lǐng)域的一門(mén)綜合性學(xué)科,它主要包括四個(gè)部分:語(yǔ)音識(shí)別(Speech Recognition)、語(yǔ)音合成(Speech Synthesis)、語(yǔ)音編碼(SpeechCoding)和語(yǔ)音分類(Speech Classification)}4]。語(yǔ)音識(shí)別是指機(jī)器從語(yǔ)音信號(hào)中提取語(yǔ)言信息,從而使機(jī)器能夠有效地理解和執(zhí)行發(fā)聲者的各種意圖,其目的是要讓機(jī)器聽(tīng)懂人類口述的語(yǔ)言,“聽(tīng)懂’,有兩層含義,其一是指將語(yǔ)音轉(zhuǎn)換為文本,其二是指理解語(yǔ)音包含的意義。通常所說(shuō)的語(yǔ)音識(shí)別是指第一層含義,而第二層含義則屬于語(yǔ)言理(LanguageUnderstanding)的范疇,讓機(jī)器聽(tīng)懂我們的話語(yǔ),是自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR要研究的課題。ASR的最終目標(biāo)是要將連續(xù)的語(yǔ)音自動(dòng)地變換成文本字符,實(shí)現(xiàn)所謂的音字轉(zhuǎn)換。在日常生活中,人們用數(shù)以萬(wàn)計(jì)的詞語(yǔ),組成連續(xù)的語(yǔ)句來(lái)進(jìn)行交談,在這種自然發(fā)音的

  語(yǔ)句中,由于協(xié)同發(fā)音以及語(yǔ)調(diào)、重音和抑揚(yáng)頓挫等節(jié)律的影響,很多音素的聲學(xué)特性跟單字念讀時(shí)差別很大,這給ASR帶來(lái)了許多挑戰(zhàn)。

  在語(yǔ)音識(shí)別方法中,目前占主導(dǎo)地位的是基于統(tǒng)計(jì)的模式識(shí)別方法〔川。一段語(yǔ)音波形通過(guò)前端信號(hào)處理后可以得到一組特征序列。在給定觀測(cè)序列Y的情況下識(shí)別系統(tǒng)采用最大后驗(yàn)概率準(zhǔn)則決定輸出詞序列(2-1)其中,P(幼與詞序列W無(wú)關(guān),因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)為語(yǔ)一言模型,表示特定詞序列出現(xiàn)的先驗(yàn)概率,與觀測(cè)語(yǔ)音信號(hào)無(wú)關(guān);P(Y}W)為聲學(xué)模型,表示給定詞序列W情況下輸出Y的概率,也就是給定聲學(xué)模型輸出Y的概率。如圖所示,大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)是一般由語(yǔ)音信號(hào)處理、聲學(xué)特征提取、聲學(xué)模型、語(yǔ)言模型、解碼器以及錯(cuò)誤處理模塊組成。從語(yǔ)音數(shù)據(jù)提取聲學(xué)特征并輸入到解碼器,利用聲學(xué)模型和語(yǔ)言模型,基于最大后驗(yàn)概率準(zhǔn)則解碼,并對(duì)解碼輸出進(jìn)行錯(cuò)誤處理,得到最終的識(shí)別結(jié)果

來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。


語(yǔ)音識(shí)別調(diào)查報(bào)告范文》由互聯(lián)網(wǎng)用戶整理提供,轉(zhuǎn)載分享請(qǐng)保留原作者信息,謝謝!
鏈接地址:http://m.7334dd.com/gongwen/82032.html
推薦專題