《AI語音與音樂生成》結合33個典型案例,從AI語音與音樂生成的發(fā)展歷史、基本原理、平臺與工具、場景應用、綜合實戰(zhàn)5方面詳細介紹其核心知識、主流工具、操作技巧和應用實踐等,從而幫助讀者系統(tǒng)掌握AI語音與音樂生成的相關知識,并給相關企業(yè)解決真實場景問題提供參考!禔I語音與音樂生成》提供配套教學視頻、案例素材、提示詞文件、語音類工作流文件、教學PPT和軟件安裝文件等超值配套資源,幫助讀者高效、直觀地學習。
《AI語音與音樂生成》共19章,分為5篇。第1篇AI語音概論,系統(tǒng)介紹AI語音發(fā)展歷史、AI語音技術引發(fā)的社會爭議和AI語音未來展望;第2篇音頻技術原理,主要介紹語音識別、語音合成和音樂生成的基本原理等;第3篇AI語音平臺與工具,主要介紹國內綜合語音平臺、國外綜合語音平臺、常用的專業(yè)化語音平臺、重要的開源AI語音模型等;第4篇AI語音場景應用,主要介紹聲音處理、聲音識別、語音合成和音樂生成4種常見的AI語音場景應用;第5篇AI語音綜合應用實戰(zhàn),首先介紹AI語音類工作流,然后介紹如何綜合使用前面章節(jié)介紹的工具、模型和技巧,帶領讀者進行應用實踐,從而完成AI翻唱、文案配音、 復活親人和郭老師說英語4個熱門AI語音綜合應用實戰(zhàn)案例。
《AI語音與音樂生成》內容豐富,講解深入淺出,案例典型、適合自媒體創(chuàng)作、音樂創(chuàng)作、游戲配音和影視配音等相關領域的從業(yè)者與愛好者閱讀,也適合高等院校和培訓機構作為AI語音類課程的教材或培訓用書。
可學AI團隊傾力打造,詳解AI語音與音樂生成的核心知識與場景應用
只講干貨,重在實踐提升,通過33個典型案例快速提高讀者的實際動手能力
國內知名游戲音樂公司小旭音樂創(chuàng)始人盧小旭點評并推薦
采用圖書 教學視頻 拓展學習 答疑解惑的立體教學方式
贈送教學視頻、案例素材、提示詞、教學PPT等超值資源
提供QQ書友群、B站和公眾號等完善的售后服務渠道
本書特色:
輕松上手:通過圖書 教學視頻 拓展學習 答疑解惑的立體教學方式,帶領讀者輕松上手。
內容全面:涵蓋AI語音的發(fā)展歷史、基本原理、平臺與工具、場景應用和綜合實戰(zhàn)等,涉及31個AI語音類在線平臺與工具、16個開源AI語音模型、4種常用ComfyUI語音工作流,幫助讀者一站式掌握AI語音與音樂生成的相關知識。
技術新穎:緊跟技術發(fā)展趨勢,基于當前流行的工具、平臺和模型進行講解,以確保技術的新穎性和時效性。
圖文并茂:結合230多幅圖講解核心知識點和應用實戰(zhàn)案例,直觀地展現AI語音與音樂生成的基本原理和實際效果。
實踐性強:詳解33個類型豐富、由易到難的典型應用案例,涵蓋AI語音與音樂生成的各種常見場景應用,幫助讀者快速提高實際動手能力。
舉一反三:針對同一功能或場景應用,提供多種實現思路,幫助讀者融會貫通,從而達到舉一反三的效果。
資料超值:提供大量的超值配套學習資源,幫助讀者高效、直觀地學習。
服務完善:提供QQ書友群、電子郵箱、B站和公眾號等多種服務渠道,為讀者的學習保駕護航。
以AIGC(人工智能生成內容)為代表的人工智能浪潮正在以前所未有的速度席卷各行各業(yè)。各種新模型層出不窮,基于新模型的新應用場景不斷涌現。AI語音與音樂作為AIGC的重要應用場景正在深刻地影響著人們的日常生活。從智能家居控制到自動駕駛,從數字人口播到跨語種溝通,從音樂生成到文案配音等,AI語音與音樂正在逐漸成為人們生活的一部分?梢哉f,AI語音與音樂生成已經成為音視頻領域的創(chuàng)作者、音樂從業(yè)者、智能產品開發(fā)者、游戲從業(yè)者以及大中專院校影視動畫與音樂等相關專業(yè)的師生必須掌握的基本技能。
為了幫助AIGC從業(yè)者全面、系統(tǒng)、深入地學習繪畫、語音和視頻等生成與處理技術,可學AI團隊于2023年便開始組織人員籌劃相關圖書的寫作和出版事宜,并于2024年先后出版了《AI繪畫大師之道:輕松入門》和《AI繪畫全場景案例應用與實踐》。這兩部圖書上市后均獲得了廣大讀者的好評。為了幫助讀者更加系統(tǒng)地學習AIGC相關技術,可學AI團隊經過調研,計劃進一步推出《AIGC繪畫與音視頻生成:ComfyUI工作流應用與實踐》《AI語音與音樂生成:原理、工具與應用實踐》《AI視頻生成:原理、工具與應用實踐》《AI繪畫與視頻生成模型微調:原理、工具與應用實踐》等圖書,這些圖書組成AIGC技術探索叢書供讀者閱讀。
本書為AIGC技術探索叢書中的《AI語音與音樂生成:原理、工具與應用實踐》分冊,詳細介紹AI語音與音樂生成的主流工具、操作技巧和應用實踐,以及聲音處理、語音識別、語音合成和音樂生成等相關應用。通過閱讀本書,讀者可以全面、系統(tǒng)、深入地掌握AI語音與音樂生成涉及的核心技術、工具、模型、技巧與場景應用等。
本書特色
? 輕松上手:通過圖書 教學視頻 拓展學習 答疑解惑的立體教學方式,帶領讀者輕松上手。
? 內容全面:涵蓋AI語音的發(fā)展歷史、基本原理、平臺與工具、場景應用和綜合實戰(zhàn)等,涉及31個AI語音類在線平臺與工具、16個開源AI語音模型、4種常用的ComfyUI語音工作流,幫助讀者一站式掌握AI語音與音樂生成的相關知識。
? 技術新穎:緊跟技術發(fā)展趨勢,基于當前流行的工具、平臺和模型進行講解,以確保技術的新穎性和時效性。
? 圖文并茂:結合230多幅圖講解核心知識點和應用實戰(zhàn)案例,直觀地展現AI語音與音樂生成的基本原理和實際效果。
? 實踐性強:詳解33個類型豐富、由易到難的典型應用案例,涵蓋AI語音與音樂生成的各種常見場景應用,幫助讀者快速提高實際動手能力。
? 舉一反三:針對同一功能或場景應用,提供多種實現思路,幫助讀者融會貫通,從而達到舉一反三的效果。
? 資料超值:提供大量的超值配套學習資源,幫助讀者高效、直觀地學習。
? 服務完善:提供QQ書友群、電子郵箱、B站和公眾號等多種服務渠道,為讀者的學習保駕護航。
本書內容
第1篇 AI語音概論
第1章介紹AI語音的發(fā)展歷史與現狀,讓讀者對其發(fā)展有基本的了解。
第2章介紹AI語音技術引發(fā)的社會爭議,包括AI語音電信詐騙、數字人復活和AI語音作品版權3個話題,讓讀者了解AI語音技術發(fā)展帶來的一些爭議。
第3章從AI音樂和語音交互兩個方面展望AI語音的未來。
第2篇 音頻技術原理
第4章介紹語音識別的技術原理,包括傳統(tǒng)語音識別系統(tǒng)的構成與工作流程,以及端到端語音系統(tǒng)的構成與工作流程等。
第5章介紹語音合成的算法原理與框架,包括基于規(guī)則、數據、統(tǒng)計參數和深度學習的語音合成方法,以及語音合成流程和聲音模型訓練等。
第6章介紹音樂生成原理,包括常用的生成模型、Transformer模型、DiT模型、AI音樂模型訓練流程,以及通過提示詞控制音樂生成效果的方法等。
第3篇 AI語音平臺與工具
第7章介紹國內綜合性語音平臺,包括百度語音、訊飛開放語音、華為云語音、阿里云語音四大平臺,以及騰訊云、有道智云和火山引擎等其他語音平臺。
第8章介紹國外綜合語音平臺,包括Microsoft Azure語音平臺、Google Cloud語音平臺及其他語音平臺。
第9章介紹常用的專業(yè)化語音平臺,包括文本轉語音、音樂生成、音頻處理、綜合工具箱4種類型的專業(yè)平臺與工具。
第10章介紹語音識別、語音合成、聲音轉換和音樂生成等重要的開源AI語音模型的部署過程與使用方法。
第4篇 AI語音場景應用
第11章介紹聲音處理工具及其應用,包括UVR5、聲音降噪、音頻切割和音頻分離等。
第12章介紹聲音識別場景應用,包括語音識別、語種識別、聲紋識別、情感識別、語音喚醒、聲音分析和音樂分析等。在每個場景應用中,首先總結相關應用的行業(yè)前景,然后通過具體案例展示其實際效果。
第13章介紹語音合成場景應用,包括文字轉語音、聲音克隆、語音替換、音色替換、實時變聲等。在每個場景應用中,首先總結相關應用的行業(yè)前景,然后通過具體案例展示其實際效果。
第14章介紹音樂生成的相關知識,包括提示詞基礎、文生音樂、通過圖像生成音樂或音效、通過參考音樂生成新的音樂等。
第5篇 AI語音綜合應用實戰(zhàn)
第15章介紹AI語音類工作流的相關知識,包括文字轉語音、數字人口播、語音克隆和音樂生成等。
第16~19章介紹如何綜合使用前面章節(jié)介紹的工具、模型和技巧進行應用實踐,從而完成AI翻唱、文案配音、親人復活和郭老師說英語4個熱門AI語音綜合應用實戰(zhàn)案例。
讀者對象
本書讀者對象如下:
? 音視頻領域的自媒體從業(yè)者;
? 數字人和直播行業(yè)的從業(yè)者;
? 配音、音樂創(chuàng)作等音樂行業(yè)的從業(yè)者;
? 對AI語音和音樂感興趣的程序員和工程師;
? 高等院校音樂、播音和主持等專業(yè)的師生;
? 相關培訓機構的學員。
配套資源獲取方式
本書贈送以下超值配套資源:
? 教學視頻;
? 案例素材;
? 提示詞文件;
? 語音類工作流文件;
? 教學PPT;
? 軟件安裝文件。
上述配套資源有兩種獲取方式:一是關注微信公眾號(見書),回復數字50自動獲取下載鏈接;二是在清華大學出版社網站上搜索到本書,然后在本書頁面上找到資源下載欄目,單擊網絡資源按鈕進行下載。另外,讀者也可以在B站上(見書)在線觀看本書配套教學視頻。
意見反饋
AI語音與音樂生成正在持續(xù)高速發(fā)展中,其功能迭代日新月異。盡管本書在寫作中已盡力保持內容的時效性與新穎性,但鑒于技術的快速變化和作者認知的局限性,書中難免存在一些未盡完善之處或細微疏漏,敬請各位讀者批評與指正,筆者會及時進行調整和修改,您的寶貴意見是我們不斷進步的動力。讀者可以通過本書QQ書友群或電子郵箱(見書)聯系我們,也可關注微信公眾號(見書),了解AIGC的相關進展信息。讀者也可關注微信公眾號(見書),回復數字50自動獲取QQ書友群號等信息。
致謝
感謝秦天琪、萇欣睿、夏小康、王佑琳、朱美霞、張洋和王浩銘等人在本書寫作期間給予筆者團隊的支持與幫助!
感謝歐振旭在本書出版過程中給予筆者的大力支持與幫助!
感謝清華大學出版社參與本書出版的所有人員!是你們一絲不茍的精神,才使得本書得以高質量出版。
感謝妻子瓊和女兒朵朵在漫長且艱難的寫作過程中給予筆者的無私支持,謝謝你們!
王雙
2025年5月
王雙:博士,畢業(yè)于中國科學院大學。現任教于武漢紡織大學,兼任可學AI的顧問。自2017年起教授人工智能的相關課程,對PINN和AIGC的相關理論與應用有深入的研究,熟練掌握AIGC的相關原理、工具與開發(fā)技巧,熟悉AIGC的各種場景應用,主持開發(fā)了高校AIGC實訓中心平臺。已為多所高等院校提供AIGC相關課程、師資、平臺綜合解決方案。主持編寫并出版了《AI繪畫大師之道:輕松入門》《AI繪畫全場景案例應用與實踐》《AIGC繪畫與音視頻生成:ComfyUI工作流應用與實踐》等圖書。
尹子成:現任可學AI高級研發(fā)工程師。兼任智能語音和生成式音樂負責人,從事AI語音與音樂課程開發(fā)、應用開發(fā)與技術測試,理論基礎扎實,經驗豐富。
白玉棋:現任可學AI高級研發(fā)工程師,專注于ComfyUI工作流研發(fā),能為特定的AIGC任務開發(fā)復雜的工作流。授課經驗豐富,已經為武昌理工學院、東湖學院和武漢交通職業(yè)學院等多所院校的師生授課。
張珈毓:現任可學AI研發(fā)工程師,負責文案撰寫、語音教程編寫、開源模型測試等,代碼編寫能力較強,能熟練使用各類開源語音模型與工具。
何媛媛:博士,畢業(yè)于中國科學院大學,F任教于武漢紡織大學,兼任可學AI的顧問。自2024年起研究AIGC,并專注于生成式3D,熟悉Nerf、Guassians Splatting等3D重建算法,致力于探索AI 3D的推廣與應用。
第1篇 AI語音概論
第1章 AI語音簡史 2
1.1 緩慢進步時期 4
1.2 快速發(fā)展時期 7
1.3 突破爆發(fā)時期 10
第2章 AI語音技術引發(fā)的社會爭議 12
2.1 AI語音電詐 12
2.1.1 AI語音電詐防不勝防 12
2.1.2 詐騙2億港元的視頻會議 13
2.2 利用AI語音復活親人 14
2.3 AI語音產品版權之爭 16
2.3.1 AI生成的內容有版權嗎 16
2.3.2 第一例AI聲音侵權案 17
2.3.3 孫某某的無奈 18
第3章 AI語音未來展望 20
3.1 AI音樂讓聽覺更自由 20
3.2 語音交互迎接智能新世界 21
第2篇 音頻技術原理
第4章 語音識別原理 24
4.1 傳統(tǒng)語音識別系統(tǒng)的構成 25
4.2 傳統(tǒng)語音識別流程 28
4.3 端到端語音識別系統(tǒng)的構成 32
4.4 端到端語音識別流程 35
第5章 語音合成原理 38
5.1 語音合成基礎 38
5.1.1 基于規(guī)則的語音合成方法 39
5.1.2 基于數據的語音合成方法 40
5.1.3 基于統(tǒng)計參數的語音合成方法 41
5.1.4 基于深度學習的語音合成方法 42
5.2 語音合成技術框架 43
5.2.1 語音合成流程簡介 43
5.2.2 聲音模型訓練 45
第6章 音樂生成原理 50
6.1 音樂生成基礎 50
6.1.1 常用的生成模型 51
6.1.2 Transformer模型 55
6.1.3 DiT模型 57
6.1.4 AI音樂模型訓練流程 58
6.2 如何通過提示詞控制音樂生成效果 60
第3篇 AI語音平臺與工具
第7章 國內綜合語音平臺 64
7.1 百度語音平臺 64
7.2 訊飛開放語音平臺 65
7.3 華為云語音平臺 68
7.4 阿里云語音平臺 70
7.5 其他語音平臺 71
第8章 國外綜合語音平臺 73
8.1 Microsoft Azure語音平臺 73
8.2 Google Cloud語音平臺 74
8.3 其他語音平臺 75
第9章 常用的專業(yè)化語音平臺 76
9.1 文本轉語音類在線平臺 76
9.1.1 Fish Audio在線平臺 76
9.1.2 TTS Online平臺 78
9.1.3 訊飛智作在線平臺 79
9.1.4 Murf在線平臺 80
9.1.5 其他在線平臺 82
9.2 音樂生成類在線平臺 83
9.2.1 Suno在線平臺 83
9.2.2 Udio在線平臺 84
9.2.3 Stable Audio在線平臺 87
9.2.4 Audio box在線平臺 89
9.2.5 其他在線平臺 89
9.3 音頻處理類在線平臺 90
9.3.1 Vocal Remover在線平臺 90
9.3.2 LALAL.AI在線平臺 91
9.3.3 UVR5在線平臺 93
9.3.4 其他在線平臺 94
9.4 綜合類在線平臺 94
9.4.1 Dubbing X在線平臺 94
9.4.2 魔音工坊在線平臺 96
9.4.3 Myedit在線平臺 97
9.4.4 Eleven Lab在線平臺 98
9.5 多模態(tài)語音平臺 100
第10章 重要的開源AI語音模型 102
10.1 環(huán)境搭建 102
10.1.1 本地部署 102
10.1.2 云端部署 103
10.1.3 常見問題 104
10.1.4 環(huán)境安裝 105
10.2 語音識別開源模型 108
10.2.1 Faster-whisper語音識別模型 108
10.2.2 FunASR語音識別模型 110
10.2.3 SenseVoice語音識別模型 111
10.3 語音合成開源模型 113
10.3.1 GPT-SOVITS聲音克隆模型 113
10.3.2 Bert-VITS2語音合成模型 115
10.3.3 CosyVoice語音合成模型 117
10.3.4 Chat TTS語音合成模型 119
10.3.5 Fish Speech文本轉語音模型 121
10.3.6 其他語音合成工具 123
10.4 聲音轉換開源模型 124
10.4.1 RVC實時變聲模型 124
10.4.2 So-VITS歌聲轉換模型 126
10.5 音樂生成開源模型 129
10.5.1 AudioCraft音樂生成模型 129
10.5.2 AudioLDM-2多功能音樂生成模型 129
第4篇 AI語音場景應用
第11章 聲音處理 132
11.1 UVR5使用簡介 132
11.2 聲音降噪 134
11.3 音頻切割 136
11.4 音頻分離 138
11.5 其他處理工具 139
第12章 聲音識別 141
12.1 語音識別案例:將語音記錄成文字 141
12.2 語種識別案例:德語還是法語 146
12.3 聲紋識別案例:嗓音身份證 147
12.4 情感識別案例:開心還是悲傷 148
12.5 語音喚醒案例:打開空調 149
12.6 聲音分析案例:發(fā)電站水泵安全檢測 150
12.7 音樂分析案例:用Sonoteller工具專業(yè)化分析音樂 151
12.8 其他識別工具 153
第13章 語音合成 154
13.1 文字轉語音案例:盲人聽報 154
13.2 聲音克隆案例:聲紋永生 155
13.3 語言替換案例:中、日、英全精通 166
13.4 音色替換案例:零門檻翻唱熱門歌曲 172
13.5 實時變聲案例:變聲器 179
第14章 音樂生成 184
14.1 提示詞基礎 184
14.1.1 提示詞簡介 184
14.1.2 歌曲創(chuàng)作規(guī)則 187
14.2 文生音樂 189
14.2.1 通過提示詞描述生成音樂 189
14.2.2 通過提示詞描述生成音效 191
14.3 通過圖像生成音樂和音效 192
14.4 通過參考音樂生成新的音樂 193
第5篇 AI語音綜合應用實戰(zhàn)
第15章 AI語音類工作流 196
15.1 文字轉語音 196
15.1.1 使用Chat TTS實現文字轉語音 196
15.1.2 使用MSSpeech_TTS進行文字轉語音 200
15.2 數字人口播 202
15.2.1 使用V-Express實現數字人口播 202
15.2.2 使用EchoMimic實現數字人口播 206
15.2.3 其他數字人口播插件 208
15.3 語音克隆 210
15.3.1 使用Chat TTS實現語音克隆 211
15.3.2 使用Fish Speech實現語音克隆 212
15.4 音樂生成 215
15.4.1 使用Stable Audio Open生成音樂 215
15.4.2 使用ComfyUI-sound-lab生成音樂 217
第16章 AI翻唱 221
16.1 數據預處理 221
16.1.1 準備數據集 221
16.1.2 提取人聲 222
16.1.3 對數據集進行分割 222
16.2 聲音訓練 223
16.2.1 使用So-VITS進行數據預處理 224
16.2.2 設置訓練參數 226
16.2.3 開始訓練 228
16.3 聲音推理 229
16.3.1 加載聲音模型 229
16.3.2 推理轉換 230
16.4 影響聲音模型質量的因素和其他音色替換工具與應用場景 231
第17章 文案配音 233
17.1 生成文案 233
17.2 基于在線平臺和開源模型進行文案配音 234
17.2.1 基于在線平臺進行文案配音 234
17.2.2 基于開源模型進行文案配音 235
17.3 生成背景音樂 238
17.4 生成視頻和圖片 238
17.4.1 利用多模態(tài)大模型生成圖片 238
17.4.2 生成視頻 240
17.5 剪輯整合 242
17.6 其他文案配音工具與應用場景 243
第18章 復活親人 244
18.1 聲音克隆 244
18.2 數字人對口型 245
18.3 工作流整合 245
18.4 其他語音合成工具與應用場景 246
第19章 郭老師說英語 247
19.1 使用開源模型進行同聲傳譯 247
19.2 使用在線平臺進行同聲傳譯 248
19.3 其他同聲傳譯工具與應用場景 250
參考文獻 251