本書是一本針對智能人機交互技術的研究性著作。書中詳細闡述交互設計、人機交互、人因工程以及智能人機交互的概念,并深入介紹手勢交互、眼動交互、語音交互、腦機情緒交互、跨模態(tài)交互等五大技術,包括各種算法和模型,以及在實際應用中的關鍵技術。此外,本書還專門介紹融合多個領域的混合現實技術。本書還對可穿戴智能交互系統(tǒng)進行深入探討,為讀者提供從系統(tǒng)層面理解智能人機交互的視角。全書內容豐富,實用性強,是理解和掌握智能人機交互技術的必備讀物。
更多科學出版社服務,請掃碼獲取。
1990.09-1994.06 國防科學技術大學 自動控制 本科
1994.09-1997.01 國防科學技術大學 飛行力學 碩士
1997.03-2000.06 國防科學技術大學 飛行器設計 博士2000.07-2002.12 國防科技大學 講師
2002.12-2008.12 國防科技大學 副教授 教研室副主任
2008.12-2018.01 國防科技大學 教授/博導 室主任、副所長
2018.01-2022.12 軍事科學院國防科技創(chuàng)新研究院 研究員/博導 無人系統(tǒng)技術研究中心主任
2023.01- 至今 軍事科學院國防科技創(chuàng)新研究院 研究員/博導 科研總師
目錄
“智能人機交互前沿技術叢書”序
前言
第1章 緒論 1
1.1 交互設計 1
1.2 人機交互 3
1.3 人機工程 6
1.4 智能人機交互 8
參考文獻 11
第2章 手勢交互 13
2.1 手勢交互概述 13
2.1.1 手勢交互基本概念 13
2.1.2 基于穿戴式傳感器的手勢交互方法 15
2.1.3 基于視覺傳感器的手勢交互方法 16
2.1.4 基于多模態(tài)傳感器的手勢交互方法 18
2.2 基于視覺傳感器的手勢交互 19
2.2.1 基于深度圖像的手部姿態(tài)估計研究 19
2.2.2 基于RGB圖像的手部姿態(tài)估計研究 24
2.2.3 基于RGB-D圖像的手部姿態(tài)估計研究 33
2.3 基于穿戴式傳感器的手勢交互 37
2.3.1 基于IMU的手勢交互 37
2.3.2 基于sEMG信號的手勢交互 56
2.4 基于多模態(tài)傳感器的手勢交互 66
2.4.1 多模態(tài)手勢數據 66
2.4.2 基于多模態(tài)傳感器融合的手勢識別方法 68
參考文獻 89
第3章 眼動交互 95
3.1 眼動交互概述 95
3.1.1 早期眼動追蹤方法 95
3.1.2 現代眼動追蹤方法 98
3.1.3 主流的眼動追蹤設備 100
3.2 大型近視眼視線估計數據集 100
3.2.1 數據采集設備 101
3.2.2 數據采集范式 102
3.3 基于姿態(tài)偏移量校正的單被試視線估計方法 104
3.3.1 基礎模型 104
3.3.2 基于姿態(tài)偏移量的模型改進 107
3.3.3 模型表現 110
3.4 基于AdaBN的跨被試視線估計方法 113
3.4.1 AdaBN介紹 114
3.4.2 基于AdaBN的模型改進 116
3.4.3 離線實驗 117
3.5 基于差分的雙眼不對稱模型 122
3.5.1 基礎模型 122
3.5.2 不對稱雙眼模型 122
3.5.3 差分學習 124
3.5.4 實驗對比 126
3.6 基于頭眼協(xié)同的視線追蹤技術 127
3.6.1 頭眼協(xié)同運動分析 127
3.6.2 頭眼協(xié)同視線追蹤網絡 130
3.6.3 模型訓練與部署 132
3.6.4 實驗結果與評估 133
參考文獻 136
第4章 語音交互 139
4.1 語音交互概述 139
4.1.1 基于音頻信號的語音識別 141
4.1.2 基于視覺圖像的無聲語音識別 142
4.1.3 基于sEMG信號的無聲語音識別 143
4.1.4 多模態(tài)語音識別 145
4.2 基于音頻信號的語音識別方法 146
4.2.1 音頻信號預處理 146
4.2.2 聲學建模方法 149
4.2.3 語言模型 155
4.2.4 基于音頻信號的自動語音識別模型 157
4.3 基于視覺圖像的語音識別方法 160
4.3.1 唇部圖像空域特征提取 160
4.3.2 唇部圖像時域特征提取 165
4.3.3 唇語識別方法設計 171
4.4 基于sEMG信號的語音識別方法 178
4.4.1 單詞級/指令詞識別 178
4.4.2 連續(xù)無聲語音識別 186
4.5 基于多模態(tài)融合的語音識別方法 190
4.5.1 視覺肌電信息融合的多模態(tài)無聲語音識別 190
4.5.2 視聽融合的多模態(tài)語音識別 197
4.5.3 聲光電多模態(tài)融合的語音識別 201
參考文獻 210
第5章 腦機情緒交互 215
5.1 腦機情緒交互概述 215
5.1.1 腦機接口 215
5.1.2 腦機接口三大范式 216
5.1.3 情感腦機接口 219
5.2 多維負性情緒素材庫和數據集 221
5.2.1 情緒模型 221
5.2.2 情緒誘發(fā) 223
5.2.3 情緒誘發(fā)實驗被試 225
5.2.4 自我評估問卷和統(tǒng)計分析 226
5.2.5 情緒誘發(fā)實驗設計 227
5.3 多維負性情緒識別方法 229
5.3.1 表征負性情緒變化的腦電圖及其他生理信號 229
5.3.2 預處理方法 232
5.3.3 特征提取方法 234
5.3.4 負性情緒識別相關工作 237
5.3.5 問題及展望 246
5.4 基于腦機接口的廣域目標識別技術 247
5.4.1 基于快速序列視覺呈現的腦機接口系統(tǒng) 248
5.4.2 空間選擇性注意相關的ERP成分 250
5.4.3 單因素空間編碼的廣域目標識別 251
5.4.4 多因素空間編碼的廣域目標識別 255
5.5 運動任務中的數據增強與頻率特征提取 257
5.5.1 相關方法與數據集構建 257
5.5.2 基于腦區(qū)重組的EEG數據增強方法 261
5.5.3 基于張量的腦機接口頻率特征組合方法 269
參考文獻 279
第6章 跨模態(tài)交互 289
6.1 跨模態(tài)交互概述 289
6.2 “人→機”跨模態(tài)語義共指消解 290
6.2.1 圖像+文本共指消解 290
6.2.2 語音+眼動+圖像共指消解 295
6.3 “機→人”圖像語義文本生成 301
6.3.1 圖像文本生成 302
6.3.2 空間語義學 304
6.3.3 數據集構建 306
6.3.4 實驗結果 307
6.4 “人→機”跨模態(tài)智能語義匹配 309
6.4.1 指令級跨模態(tài)匹配 311
6.4.2 子指令級跨模態(tài)匹配 318
6.4.3 實體級跨模態(tài)匹配 320
6.4.4 指令語義解析任務 321
參考文獻 324
第7章 混合現實技術 328
7.1 系統(tǒng)組成 328
7.1.1 HoloLens系列 330
7.1.2 Magic Leap One 332
7.1.3 Nreal系列 333
7.2 光學顯示技術 334
7.2.1 微顯示器 334
7.2.2 典型光學顯示結構分析 335
7.2.3 光透射式AR設備標定方案 343
7.3 定位技術 348
7.3.1 坐標一致性原理 348
7.3.2 SLAM中的信息融合技術 358
7.3.3 無標記動作捕捉結合的IMU定位技術 363
7.3.4 三維物體剛體位姿估計 366
7.3.5 深度學習定位定向技術 372
7.4 應用案例 374
7.4.1 民生應用 374
7.4.2 軍事應用 378
參考文獻 383
第8章 智能人機交互系統(tǒng)的開發(fā)及應用 389
8.1 移動端人工智能算法工具與部署技術棧 389
8.1.1 基于TensorFlow的移動端算法部署 390
8.1.2 基于PyTorch的移動端算法部署 391
8.1.3 基于高通芯片的SNPE框架部署 392
8.1.4 基于NCNN加速框架的算法部署及優(yōu)化 393
8.1.5 基于MediaPipe的測試及移植 395
8.2 可穿戴智能交互系統(tǒng)集成方案 396
8.2.1 智能頭盔 399
8.2.2 智能眼鏡 404
8.2.3 智能手套 410
8.2.4 智能戒指 415
8.3 典型應用系統(tǒng)開發(fā) 420
8.3.1 多人電子沙盤應用 420
8.3.2 多機交互應用 426
第9章 結語 436