本書是作者在多年科學研究的基礎上整理完善而成的,是自然語言處理技術在文本分類領域應用的綜述和總結,本書專業(yè)性較強,注重對技術理論依據(jù)和解決思路的精細講解,讀者可通過對本書的學習了解和掌握人工智能相關技術在網(wǎng)絡文本處理時的實現(xiàn)方法和操作流程。本書的內容包括:文本預處理、特征表示與降維、文本分類算法、多標簽文本分類技術、短文本分類與應用等。每個章節(jié)里對關鍵的知識點進行細致講解,并通過舉例敘述的方式強化相關理論的直觀印象,將理論闡述和實例演示緊密聯(lián)系起來,方便初學者對深奧枯澀理論知識的理解和掌握,本書對提高學生理論聯(lián)系實際的能力具有較大幫助。本書可作為本科院校智能科學與技術、計算機科學與技術等專業(yè)的教材,也可供從事自然語言處理研究的人員進行參考。
前 言
文本分類是機器自然語言處理的一個重要研究方向,具有廣闊的應用領域和科學研究價值。本書理論性強,讀者需要有扎實的數(shù)學和統(tǒng)計學基礎,部分內容對于初學者來說比較難以理解。全書以文本分類的處理流程為主線組織敘述框架:對文本預處理、特征選擇與降維、常用分類算法、多標簽文本分類技術、短文本分類技術等進行了詳細的講解,圍繞文本分類處理中涉及相關技術的理論依據(jù)、實現(xiàn)思路、優(yōu)劣勢等問題展開闡述,并將一些重要的知識點通過舉例的方式直觀講解,加深讀者的理解。
文本信息機器分類涵蓋的內容較為寬泛,敘述過程不可能面面俱到,本書以網(wǎng)絡文本作為處理對象,針對其特有的大規(guī)模、強噪音、特征表示稀疏、上下文關聯(lián)性強等特點,綜合介紹了科研工作者針對此類問題的解決思路和有效做法,并以微博信息為例,細致介紹了主題模型在網(wǎng)絡短文本處理中的應用。
本書共六章,內容包括:緒論、文本預處理、特征表示與降維、文本分類算法、多標簽文本分類技術、短文本分類與應用。
本書由陳念、楊永超著。各章節(jié)的分工如下:第1、2、6章由陳念著,第3、4、5章由楊永超著,由陳念負責統(tǒng)稿。全書共計19.5萬字,其中陳念著9.5萬字,楊永超著10萬字。
對于本書的錯誤和不當之處,希望讀者隨時指正。
編 者
2020年4月