瀏覽通過域

什麼是語音識別?

  1. 什麼是語音識別?
  2. 語音識別的例子
  3. Python語音識別

什麼是語音識別?

語音識別賦予計算機理解自然語言的能力。我們是非常複雜的生物,我們的語言也是如此。我們可能正在討論最重要的問題,但突然決定談論一些完全無關的事情。這種上下文中的切換稱為非線性。我們可以理解這一點。計算機正在實現這種能力。最近,阿裏巴巴和穀歌展示了這些應用,震驚了全世界。這是總體情況,但您是否想過如何將語音識別包含到您正在進行的項目中?如果是,那麼讓我們學習一些與語音識別相關的基本概念,並使用Python中現成的包實現它。

語音識別的例子:

當亞馬遜在語音助手Alexa上投入巨資時,他們打算減少消費者和需求之間的摩擦。自然語言實現了這一點。想象一下,當你做飯的時候,你記得你需要一把刀。你說,Alexa,給我一把500盧比以內做飯用的刀。它會為你做這項工作。這就是未來。因此,所有的大公司都在投資能夠理解語境和消費者情緒的語音助手。它使交互性和可訪問性達到了一個新的水平。

在本指南中,我們將了解關於語音識別的細節,實現語音識別的可用選項,以及一個簡短的程序。

語音識別可以通過多種方式實現。它從使用簡單的模板來檢測蜂鳴聲開始,慢慢地向理解其頻率成分發展。今天,我們正處於頻率分析和深度學習的交叉階段。深度學習的重要性在於它支持上下文,從而支持服務。因此,人們對深度學習產生了巨大的衝擊。

語音識別與深度學習:

聲波是一種數據形式,由相位、振幅、信噪比等信息組成。這些參數定義了一維波結構。在每一個時刻,它們都反映出一個基於振幅(也稱為波高)的值。這是模擬信號的一種形式。因此,為了將數據輸入計算機,我們使用一種稱為采樣的過程對數據進行離散化。

采樣數據被量化,通過這個過程它被轉換成可量化的位。這些數據被發送到機器學習模型,由機器學習模型預測輸出。由於語音是有順序的,也就是說,在語音中語境很重要,我們需要使用網絡來記住之前輸入和當前輸入之間的相關性。因此,我們使用序列模型,如循環神經網絡,隱馬爾可夫模型,長短期記憶模型,作為我們的分類器的構建模塊。這種模型的特點是以前的輸出為將來的輸入提供反饋,因此增加了一個內存元素。

例如,如果當前輸入是“my name”,它很可能使用單詞“is”。這個概念是,一個詞的陪伴決定了它的用法。在使用名字時,“is”、“what”、“my”等比“kitchen”用得更頻繁。一旦我們有了可處理格式的音頻,我們就把它輸入一個深度神經網絡模型。

有哪些可用的包?

Python中有許多用於語音識別的包。其中包括:

  • 自動語音識別
  • 歌手
  • Xy-speech
  • Google-cloud-speech
  • Watson-developer-cloud

穀歌雲語音和IBM沃森服務包括一個可用於實驗的免費層。PyAudio當且僅當您想使用麥克風輸入(麥克風)時,是必需的。

代碼
首先使用python包安裝程序pip或conda安裝語音識別包。

import speech . recognition as sr # get audio from麥克風r = sr. recognizer () with sr.麥克風()作為源:打印("Speak:")音頻= r.listen(源)嚐試:打印("You said " + r.recognize_google(音頻))除sr. unknownvalueerror:打印("無法理解音頻")除sr. requesterror as e: print("無法請求結果;{0}“.format (e))

閱讀我們的博客了解更多模式識別工作在語音識別。

beplay2018官网很好的學習了人工智能和機器學習課程幫助您掌握該領域及其子類別(如深度學習和模式識別)的細微差別。

瑪麗娜Chatterjee
Marina是一名內容營銷人員,她對當今數字經濟的創新領域非常感興趣。她曾與亞馬遜和Facebook的營銷合作夥伴合作,幫助他們找到自己的品牌語言。在過去的生活中,她是一名學者,教著睜大眼睛的英語專業本科生,讓巴特(Barthes)在墳墓裏翻騰。

留下你的評論

您的電郵地址將不會公布。

用夢想的工作免費的印度最值得信賴的教育平台上的證書課程

滾動到頂部
Baidu
map