社會科學的文本分析:R的應用[1版/2025年8月/1HA...
    編/著者: 曾文鐽
    出版社:五南
    出版日期:2025-08-19
    ISBN:9786264237017
    參考分類(CAT):研究方法
    參考分類(CIP): 社會科學理論

    優惠價:9折,378

    定價:  $420 

    ※購買後立即進貨

     
     
     
    分享
      買了此商品的人,也買了....
    定價:480 元
    特價:90折!432
     
    定價:350 元
    特價:90折!315
     
    定價:500 元
    特價:90折!450
     
    定價:900 元
    特價:90折!810
     
    定價:450 元
    特價:90折!405
     
      | 內容簡介 |
    內容簡介
    ⊙系統化學習路徑
    從文本分析基礎概念、語料庫結構探索、文本資料視覺化,到聚類辨識文本相似性、情感分析與機器學習,循序漸進,逐步搭建完整框架。
    ⊙理論結合實作
    透過豐富案例與步驟式操作指南,引導讀者使用R及quanteda等套件,立即動手建立可複製的文本分析工作流程。
    ⊙橫跨社科、文學與商業
    聚焦「以問題為導向」的應用場景,協助研究者與實務工作者有效解讀文本數據,洞察人類行為與社會脈動。

    在數據驅動的時代,文本分析是揭示人類語言奧祕的關鍵方法。本書以R與quanteda生態系為核心,示範如何從語料庫中挖掘模式、趨勢與洞見,助力學術研究,也為政策、商業與社會決策提供實證基礎。
      全書循序漸進:
    1. 語料庫結構與預處理:分詞、N-gram、TF-IDF等基礎技術。
    2. 聚類與相似性分析:以階層與K-means等方法刻畫文本關係。
    3. 情感分析與機器學習:結合SVM、隨機森林等模型,完成精細分類與預測。
    每章均附完整R程式碼、真實案例與圖形化流程,讀者可即學即用,迅速將方法轉化為學術或業界成果。
    作者介紹
    曾文鐽

    現職:
    國立臺灣科技大學應用外語系教授

    學歷:
    英國諾丁漢大學博士

    經歷:
    國立臺灣師範大學英語系助理教授、副教授
    國立臺灣科技大學應用外語系副教授
    目次
    第1章 文本分析簡介
    什麼是文本分析?
    透過文本洞察力提取數據
    結語
    文本分析工作流程
    原始文本
    矩陣表示
    分析
    準備:練習使用R進行文本分析
    步驟1:載入quanteda套件
    步驟2:使用print()探索語料庫
    步驟3:使用tokens()對語料庫進行字元化處理
    步驟4:使用dfm()創建文檔-特徵矩陣
    步驟 5:使用textplot_wordcloud()創建文字雲
    第1章總結

    第2章 探索語料庫的結構
    步驟1:載入quanteda
    步驟2:檢視語料庫並提取文件變數
    步驟3:使用SOTU語料庫重現分析
    詞彙字元化
    步驟1:載入quanteda
    步驟2:對語料庫進行詞彙字元化處理
    步驟3:使用kwic()探索字元化的語料庫
    在R中創建文檔-特徵矩陣
    步驟1:載入quanteda
    步驟2:對語料庫進行字元化處理
    步驟3:創建文檔-特徵矩陣
    步驟4:選擇dfm特徵
    第2章總結

    第3章 文本數據的視覺化呈現
    條形圖
    詞彙分布圖
    關鍵度繪圖
    相關描述性統計
    摘要統計
    頻率
    可讀性
    詞彙多樣性
    關鍵詞分析
    步驟1:載入套件
    步驟2:對語料庫進行字元化處理
    步驟3:創建文檔-特徵矩陣
    步驟4:執行命令獲取摘要統計資料
    步驟5:將匯總統計資料轉換為相關的視覺化圖形
    第3章總結

    第4章 在R中應用聚類技術識別文本相似性
    視覺化聚類算法
    K-均值聚類
    選擇一個K值
    手肘法
    層次聚類
    終止點的確認
    樹狀圖
    方法比較
    計算R中的二元統計量
    步驟1:加載套件和語料庫
    步驟2:字元化並創建文檔-特徵矩陣
    步驟3:使用textstat_simil()進行相似度計算
    步驟4:使用textstat_dist()進行距離計算
    聚類美國總統演講
    步驟1:加載套件和語料庫
    步驟2:字元化並創建文檔-特徵矩陣
    步驟3:K-均值聚類和層次聚類
    繪製距離和K-均值聚類
    繪製層次聚類
    第4章總結

    第5章 情感分析
    情感分析工作流程
    執行情感分析
    步驟1:載入和探索語料庫
    步驟2:對資料進行字元化
    步驟3:識別極端文本中最常見的單詞
    步驟4:應用情感詞典進行情感分析
    步驟5:情感分析
    步驟6:視覺化
    第5章總結

    第6章 機器學習
    分類的應用案例
    單純貝氏分類模型
    線性支援向量機(Linear Support Vector Machines)
    混淆矩陣(Confusion Matrix)
    評估R中的分類模型
    步驟1:載入套件和語料庫
    步驟2:對資料進行字元化並創建dfm
    步驟3:創建訓練集和測試集
    步驟4:擬合單純貝氏分類器
    步驟5:進行準確性測試
    步驟6:進行交叉驗證
    第6章總結

    第7章 結論與未來研究展望
    旅程回顧
    實踐之旅
    展望未來
    第7章總結

    第8章 附件:R指令整理
    第1章:文本分析簡介
    1. 基本操作函數
    2. quanteda套件函數
    第2章:探索語料庫的結構
    1. 語料庫處理
    2. 字元化處理
    3. 關鍵詞文脈分析(KWIC)
    4. 文檔-特徵矩陣(DFM)
    5. 其他分析與應用
    第3章:文本數據的視覺化呈現
    1. 文字雲相關函數
    2. 條形圖與相關統計函數
    3. 詞彙分布與關鍵度繪圖函數
    4. 可視化繪圖函數
    第4章:在R中應用聚類技術識別文本相似性
    1. 文本預處理相關函數
    2. 相似性與距離計算函數
    3. K-均值聚類相關函數
    4. 層次聚類相關函數
    5. 視覺化繪圖相關函數
    第5章:情感分析
    1. 載入與探索語料庫相關指令
    2. 資料字元化相關指令
    3. 文檔-特徵矩陣(DFM)操作相關指令
    4. 關鍵字和文字雲相關指令
    5. 情感詞典相關指令
    6. 資料框轉換與操作指令
    7. 視覺化相關指令
    第6章:機器學習
    1. 載入與探索數據相關指令
    2. 資料分割與訓練測試集相關指令
    3. 單純貝氏分類相關指令
    4. 支援向量機(SVM)相關指令
    5. 模型性能評估相關指令
    6. 交叉驗證相關指令
    7. 可視化相關指令