售前電話
135-3656-7657
售前電話 : 135-3656-7657
國家高新技術企業 省級專精特新企業
咨詢熱線:135-3656-7657 400-6333-661
自動語音識別,稱為ASR,英文全稱Automatic Speech Recognition。是指人工智能 (AI) 技術將人類語音轉換為文本的過程。最終目標是通過將聲波正確轉換為字母和句子字符串來提供音頻的轉錄。這要求 自動語音識別 系統通過識別語音和解釋對話上下文來在一定程度上學習語言,以提供最準確的轉錄。多年來,自動語音識別系統已經走了很長一段路,近年來變得更加普遍,被集成到Instagram和Tik Tok等流行應用程序中。自動語音識別 取得的進展繼續為那些受益者提供更易于訪問和負擔得起的音頻和視頻數據打開大門。在本文中,我們將探討 自動語音識別 的發展、該技術的現代應用以及 自動語音識別 如何提高可訪問性。
自動語音識別的歷史
我們今天所知的自動語音識別的起源可以追溯到1952年,當時發明了一種名為“奧黛麗”的數字識別系統。由貝爾實驗室創建,最初奧黛麗只能將口語數字轉錄為可讀的文本,但經過改進,它最終也能夠轉錄基本單詞。后來在1960年代,IBM開發了一個名為“鞋盒”的系統,它能夠識別數字以及理解數學命令并計算答案。然而,直到大約十年后,自動語音識別技術才得到更認真的研究。這最終導致了 自動語音識別 更準確的商業使用,并且在 1990 年代以高成本出售 自動語音識別 技術和 API。 自動語音識別在 2000 年代的技術繁榮中真正獲得了動力,如今 自動語音識別 現在已達到接近人類的準確性。隨著購買 自動語音識別 系統的成本變得更加實惠和可訪問性不斷增長,現在可以在許多流行的移動應用程序中找到 自動語音識別 技術的形式,變得越來越普遍和廣泛。
自動語音識別如何工作?
人在筆記本電腦上,雙手放在鍵盤上,屏幕上有多種語言的語音識別詞。
為了使自動語音識別能夠準確地將一系列聲波轉換為書面文本,自動語音識別系統必須學習該語言。就像一個人學習一門新語言一樣,自動語音識別 系統分步學習,并利用這些技能來轉換和正確解釋所說的內容。此過程的第一步從自動語音識別系統理解音素開始。音素是語言中聲音的最小單位。此步驟使系統能夠理解和識別每個字母發出的聲音。一旦音素能夠被理解,這項基礎技能允許系統組合不同的字母并將它們發音以創建單詞。
從那里,自動語音識別系統能夠從串在一起的單詞構建句子。然而,自動語音識別 系統的學習和基礎理解并不止于此。為了確保準確性,自動語音識別系統還必須了解如何正確區分發音相似的單詞和短語,并選擇正確的解釋。在處理書面文本中的聲音時,重要的是 自動語音識別 還能夠理解和區分哪些單詞重要,哪些不重要。例如,系統必須能夠理解和解釋不流暢和填充詞等話語。不流暢包括自然言語中出現的言語,如停頓或猶豫和口吃。填充詞包括像“嗯”這樣的詞,它們填充空間但在對話上下文中沒有意義。
訓練 自動語音識別 系統的方法
訓練自動語音識別系統有多種方法和方法。在當今世界,訓練自動語音識別系統的兩種主要方法是傳統的混合方法和所謂的端到端深度學習方法。這些各自的方法中的每一種都在每個系統中包含多個模型。
傳統的混合方法
傳統的混合方法是自動語音識別的傳統方法,今天許多公司仍在使用。盡管現在有更準確的訓練方法,但仍然依賴傳統的混合方法,因為對于如何基于這種方法創建強大的模型有更多的知識和專有技術。由于傳統的混合方法是15年來的主要方法,因此有更多的可用數據和已經完成的研究,使得構建系統變得更加容易。傳統的混合方法使用傳統的HMM(隱馬爾可夫模型)和GMM(高斯混合模型),兩者都需要使用數據的力對齊。強制對齊是指語音識別系統獲得所講內容的精確轉錄的過程,然后它必須確定語音片段中單詞所屬的時間順序。在傳統的HMM和GMM方法中,有三種模型是變體,在自動語音識別過程中起著重要作用。
在使用傳統的混合語音識別方法中發揮作用的三種模型是:聲學模型、詞典模型和語言模型。聲學模型通常是HMM或GMM方法的變體,用于復制語音的聲學模式。這允許它根據輸入的強制對齊數據預測在什么時間發生什么聲音。另一個模型是詞典模型,它被編程為告訴自動語音識別系統單詞是如何發音的。語言模型還有助于正確確定句子中單詞的正確順序。它使用語言統計作為資源和指導,使用概率根據概率和數據預測哪些單詞相互跟隨。最后是解碼過程。解碼綜合這些模型,以產生所說的文字記錄。
盡管長期使用傳統的混合方法,但它并非沒有局限性或缺點。與其他方法相比,這種方法的最大缺點之一是精度較低。使用傳統的混合方法效率也較低,因為每個系統都必須單獨訓練,這使得它比其他方法更加勞動密集和耗時。準確性不那么可靠,因為每個系統都利用自定義語音集來提供轉錄,這取決于它是由誰設計或編程的。 端到端學習方法 提供自動語音識別的更現代方法是端到端學習方法。端到端學習能夠將接收到的聲學信號映射到一系列單詞中,而無需依賴力對齊數據。與傳統的混合方法相比,利用端到端學習方法可提供更準確的轉錄。與傳統的混合方法不同,端到端學習還能夠在不使用詞典模型或語言模型的情況下創建成績單。三個突出的端到端架構是CTC,LAS和RNNT。所有這些端到端深度學習架構都可用于創建高度準確的轉錄,而無需使用強制對齊的數據、語言模型或詞典模型。但是,在此過程中使用語言模型有助于進一步提高準確性。與傳統的混合方法相比,端到端學習方法不僅需要更少的人力,而且更容易培訓和編程。 自動語音識別準確嗎? 如今,自動語音識別比以往任何時候都更加準確,甚至達到了接近人類水平的準確性。然而,隨著人工智能系統的不斷學習和新的學習方法的發展,自動語音識別一直在改進。自動語音識別的準確性可能受到不同變量的影響,例如使用哪種方法或方法對系統進行編程。衡量自動語音識別準確性的一個常用指標是單詞錯誤率 (WER)。單詞錯誤率的計算方法是將錯誤數除以轉錄語音片段中的單詞數。雖然自動語音識別的準確性受所用方法的影響,但無論使用哪種方法,WER也受到外部因素的影響。音頻質量、重音、串擾和同音字等變量都會影響 自動語音識別 的準確性。盡管 自動語音識別 并非沒有局限性并且仍在改進,但目前的 自動語音識別 系統幾乎接近人類轉錄的準確性。為了證明這種比較,像微軟這樣的流行自動語音識別系統的WER為5.1%,而谷歌的單詞錯誤率為4.9%。人類轉錄員的平均單詞錯誤率為 4%;仍然比 自動語音識別 更準確,并且能夠更好地解釋上下文。盡管自動語音識別的準確性不斷提高,但僅靠自動語音識別系統并不完美,這表明仍然需要人類轉錄員來獲得最可靠的轉錄或字幕。 自動語音識別的應用 自動語音識別的應用在當今的現代世界中無處不在。盡管當大多數人想到自動語音識別時,第一個聯想可能是想到視頻和電視或其他形式的轉錄的字幕,但它遠遠不止于此。自動語音識別的常見應用無處不在,從手機到許多人在家中擁有的數字和虛擬助手。自動語音識別是日常生活的重要組成部分,比許多人意識到的要多。如今,自動語音識別 的應用以某種形式簡化了大多數人的任務,無論是轉錄和發送短信的智能手機、遵循命令的虛擬助手還是其他方式。 應用 1 可以在大多數家庭和許多工作場所中找到的自動語音識別的日常應用在于虛擬和數字助理。也許這些虛擬助手中最著名的是:亞馬遜的Alexa,谷歌的谷歌助手,蘋果的Siri和微軟的Cortana。這些數字助理和其他數字助理旨在能夠執行基本任務并回答和回答問題。這樣的人工智能系統能夠訪問廣泛的信息和知識數據庫,使他們能夠找到各種問題的答案,計算計算,并執行打開和關閉電器等命令。在商業和工作場所,這些數字助理可以通過安排和啟動視頻會議和會議、搜索文檔,甚至創建圖表并將數據輸入報告來加快辦公任務并減輕工作量。聊天機器人是另一種常見的用途,可幫助客戶服務人員解決常見問題和其他基本客戶需求。 應用 2 除了Siri等數字助理之外,智能手機還在各種應用程序中利用自動語音識別和語音轉文本功能。像Instagram這樣的流行應用程序通過允許用戶通過語音命令更改或激活過濾器來整合自動語音識別。自動語音識別是智能手機上每次使用語音轉文本不可或缺的一部分,無論是說出您希望短信說出的內容,還是告訴瀏覽器或應用程序要搜索的內容。Instagram和Youtube等社交媒體和內容平臺上的字幕也使用自動語音識別為視頻提供自動生成的字幕。 自動語音識別 如何使可訪問性受益? 女人拿著電話與現在說話和手機屏幕上的麥克風圖像。