本書系統(tǒng)地介紹了語音識別在大模型時代的新技術與新應用。全書共16章,原理部分涵蓋聲學特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經(jīng)網(wǎng)絡(DNN)、語言模型和加權有限狀態(tài)轉換器(WFST)、語音大模型,重點描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識別框架;應用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工業(yè)應用實踐介紹,內(nèi)容主要來自工程經(jīng)驗,極具實用性。
"近年來人工智能技術突飛猛進,以語音識別為代表的音頻處理技術取得了大量突破,但該領域內(nèi)理論結合實戰(zhàn)的入門書籍卻較為缺乏,本書旨在為有志學習音頻信號處理的讀者提供一本實用的入門書籍。本書共13章,第1章和第2章是基礎部分,包括聲學基礎知識及Python基礎等內(nèi)容;第3到4章介紹了音頻信號的獲取及分析方法;第5~8章介紹了語音識別基礎、傳統(tǒng)語音識別技術及語音識別、語音合成的實戰(zhàn)技術;第9章和第10章介紹了常用的音樂分析方法及Python編曲等內(nèi)容;第11~13章介紹了深度學習的基礎知識及如何用PyT
閱讀本書,可以幫助你掌握MA音頻制作技術,掌握旁白、現(xiàn)場音、SE、BGM表現(xiàn)視頻的基本能力,了解視頻作品的聲音制作流程!本書主要向視頻創(chuàng)作者、新媒體從業(yè)者、影視制作專業(yè)的學生介紹錄音的采集、編輯及制作技術,使他們能夠在一定程度上在成本相對有限的情況下編輯和制作專業(yè)水平的音頻和視頻。此外,對于那些想要將視頻音頻工作作為業(yè)務擴展的讀者也有不小的幫助。現(xiàn)在,音頻制作的門檻在逐漸降低,自媒體、短視頻從業(yè)者、SOHO一族、自由藝術創(chuàng)作者所開辟的各種傳媒新工作種類將變得越來越普遍。毫無疑問,個人創(chuàng)作者也將需
本書從錄音基礎開始,按照順序講解麥克風的選擇方法以及如何設置麥克風。如果你對目前的錄音工作感到苦惱的話,請務必先去閱讀第10章<不同情況下“這樣來錄音!”>,如果尚有不明白的地方,請再去閱讀前面的章節(jié)。在本書中,第1章、第2章記述了基本思路,第3章~第5章按照不同種類介紹了麥克風的具體使用方法。接下來,第6章~第8章介紹了不同場所的使用技巧。第9章介紹了不同場合下的錄音操作指南。想要進一步提高音質(zhì)的話,請先閱讀作為基礎的第1章、第2章,想配合手頭的錄音設備進行實踐的話,請閱讀本書的第3章~第9章
本書貫穿了信號的獲取、處理、分析和識別整條鏈路所需的關鍵知識點,以聲信號為研究對象,闡述了傳統(tǒng)信號處理、自適應信號處理、機器學習等信號處理和智能分析設計等知識要點。全書總共16章,第1~4章介紹了經(jīng)典信號處理與分析方法,第5~11章闡述了先進信號處理方法、人工特征的獲取原理和方法,第12~16章主要說明了深度學習、混合模型等智能分析方法。 本書的主要讀者對象為聲信號處理和分析相關學科的高校學生,以及從事聲信號處理的相關科研工作者。本書對語音信號處理相關專業(yè)的技術人員也有一定的參考價值。本書也適