內容簡介
⊙系統化學習路徑
從文本分析基礎概念、語料庫結構探索、文本資料視覺化,到聚類辨識文本相似性、情感分析與機器學習,循序漸進,逐步搭建完整框架。
⊙理論結合實作
透過豐富案例與步驟式操作指南,引導讀者使用R及quanteda等套件,立即動手建立可複製的文本分析工作流程。
⊙橫跨社科、文學與商業
聚焦「以問題為導向」的應用場景,協助研究者與實務工作者有效解讀文本數據,洞察人類行為與社會脈動。
在數據驅動的時代,文本分析是揭示人類語言奧祕的關鍵方法。本書以R與quanteda生態系為核心,示範如何從語料庫中挖掘模式、趨勢與洞見,助力學術研究,也為政策、商業與社會決策提供實證基礎。
全書循序漸進:
1. 語料庫結構與預處理:分詞、N-gram、TF-IDF等基礎技術。
2. 聚類與相似性分析:以階層與K-means等方法刻畫文本關係。
3. 情感分析與機器學習:結合SVM、隨機森林等模型,完成精細分類與預測。
每章均附完整R程式碼、真實案例與圖形化流程,讀者可即學即用,迅速將方法轉化為學術或業界成果。
作者介紹
曾文鐽
現職:
國立臺灣科技大學應用外語系教授
學歷:
英國諾丁漢大學博士
經歷:
國立臺灣師範大學英語系助理教授、副教授
國立臺灣科技大學應用外語系副教授
目次
第1章 文本分析簡介
什麼是文本分析?
透過文本洞察力提取數據
結語
文本分析工作流程
原始文本
矩陣表示
分析
準備:練習使用R進行文本分析
步驟1:載入quanteda套件
步驟2:使用print()探索語料庫
步驟3:使用tokens()對語料庫進行字元化處理
步驟4:使用dfm()創建文檔-特徵矩陣
步驟 5:使用textplot_wordcloud()創建文字雲
第1章總結
第2章 探索語料庫的結構
步驟1:載入quanteda
步驟2:檢視語料庫並提取文件變數
步驟3:使用SOTU語料庫重現分析
詞彙字元化
步驟1:載入quanteda
步驟2:對語料庫進行詞彙字元化處理
步驟3:使用kwic()探索字元化的語料庫
在R中創建文檔-特徵矩陣
步驟1:載入quanteda
步驟2:對語料庫進行字元化處理
步驟3:創建文檔-特徵矩陣
步驟4:選擇dfm特徵
第2章總結
第3章 文本數據的視覺化呈現
條形圖
詞彙分布圖
關鍵度繪圖
相關描述性統計
摘要統計
頻率
可讀性
詞彙多樣性
關鍵詞分析
步驟1:載入套件
步驟2:對語料庫進行字元化處理
步驟3:創建文檔-特徵矩陣
步驟4:執行命令獲取摘要統計資料
步驟5:將匯總統計資料轉換為相關的視覺化圖形
第3章總結
第4章 在R中應用聚類技術識別文本相似性
視覺化聚類算法
K-均值聚類
選擇一個K值
手肘法
層次聚類
終止點的確認
樹狀圖
方法比較
計算R中的二元統計量
步驟1:加載套件和語料庫
步驟2:字元化並創建文檔-特徵矩陣
步驟3:使用textstat_simil()進行相似度計算
步驟4:使用textstat_dist()進行距離計算
聚類美國總統演講
步驟1:加載套件和語料庫
步驟2:字元化並創建文檔-特徵矩陣
步驟3:K-均值聚類和層次聚類
繪製距離和K-均值聚類
繪製層次聚類
第4章總結
第5章 情感分析
情感分析工作流程
執行情感分析
步驟1:載入和探索語料庫
步驟2:對資料進行字元化
步驟3:識別極端文本中最常見的單詞
步驟4:應用情感詞典進行情感分析
步驟5:情感分析
步驟6:視覺化
第5章總結
第6章 機器學習
分類的應用案例
單純貝氏分類模型
線性支援向量機(Linear Support Vector Machines)
混淆矩陣(Confusion Matrix)
評估R中的分類模型
步驟1:載入套件和語料庫
步驟2:對資料進行字元化並創建dfm
步驟3:創建訓練集和測試集
步驟4:擬合單純貝氏分類器
步驟5:進行準確性測試
步驟6:進行交叉驗證
第6章總結
第7章 結論與未來研究展望
旅程回顧
實踐之旅
展望未來
第7章總結
第8章 附件:R指令整理
第1章:文本分析簡介
1. 基本操作函數
2. quanteda套件函數
第2章:探索語料庫的結構
1. 語料庫處理
2. 字元化處理
3. 關鍵詞文脈分析(KWIC)
4. 文檔-特徵矩陣(DFM)
5. 其他分析與應用
第3章:文本數據的視覺化呈現
1. 文字雲相關函數
2. 條形圖與相關統計函數
3. 詞彙分布與關鍵度繪圖函數
4. 可視化繪圖函數
第4章:在R中應用聚類技術識別文本相似性
1. 文本預處理相關函數
2. 相似性與距離計算函數
3. K-均值聚類相關函數
4. 層次聚類相關函數
5. 視覺化繪圖相關函數
第5章:情感分析
1. 載入與探索語料庫相關指令
2. 資料字元化相關指令
3. 文檔-特徵矩陣(DFM)操作相關指令
4. 關鍵字和文字雲相關指令
5. 情感詞典相關指令
6. 資料框轉換與操作指令
7. 視覺化相關指令
第6章:機器學習
1. 載入與探索數據相關指令
2. 資料分割與訓練測試集相關指令
3. 單純貝氏分類相關指令
4. 支援向量機(SVM)相關指令
5. 模型性能評估相關指令
6. 交叉驗證相關指令
7. 可視化相關指令