R軟體在決策樹的實務應用 | 誠品線上

R軟體在決策樹的實務應用

作者 吳明隆/ 張毓仁
出版社 五南圖書出版股份有限公司
商品描述 R軟體在決策樹的實務應用:本書特色:●從使用者觀點出發,實務的角度論述,有系統地介紹R軟體在資料探勘預測分類的實務應用。●內容詳細介紹不同套件函數在決策樹的使用方

內容簡介

內容簡介 ●從使用者觀點出發,實務的角度論述,有系統地介紹R軟體在資料探勘預測分類的實務應用。 ●內容詳細介紹不同套件函數在決策樹的使用方法、模型效度檢定法,決策樹與複迴歸分析、邏輯斯分析與區別分析的綜合應用。 ●搭配範例解說,讓學習更能事半功倍。 ●書籍內容適合大專院校學生、研究生,更適合對R軟體統計分析有興趣的研究者。 《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書。書籍內容以使用者為導向的論述表達,詳細介紹R軟體在迴歸樹與預測分類的實務應用,內容兼顧理論與實務、函數與語法說明、統計方法使用與結果解析。內容所述可讓讀者快速熟悉R軟體在資料探勘之決策樹的使用,熟悉R軟體套件函數在預測分類的實務應用與知悉R軟體相關函數的功能。本書可作為統計相關課程的參考用書或資料處理的工具書。

作者介紹

作者介紹 ■作者簡介吳明隆現職:高雄師範大學師資培育中心教授學歷: 高雄師範大學教育學博士電子郵件:t2673@nknucc.nknu.edu.tw張毓仁現職:屏東縣國小主任學歷:中央大學課程與教學所博士

產品目錄

產品目錄 序言Chapter 01決策樹概論Chapter 02套件{rpart}函數rpart ( )壹、rpart ( )函數貳、函數rpart.control ( )參、輸出函數肆、資料框架物件Chapter 03迴歸樹壹、迴歸樹模型建構一、函數rpart ( )—建構迴歸樹模型二、葉節點參數估計值三、函數printcp ( )—輸出複雜度參數四、函數post ( )—繪製迴歸樹圖形五、函數rpart ( )引數參數的範例六、函數labels ( )與函數path.rpart ( )的應用七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖貳、適配迴歸樹模型殘差參、套件{ggplot2}函數ggplot ( )的繪圖應用肆、迴歸樹的修剪伍、解釋變數為因子變數Chapter 04分類樹壹、反應變數為三分類別變數一、建構分類樹模型二、繪製分類樹圖形三、分類樹的殘差值四、分類樹的分類路徑五、分類樹的剪裁六、分類樹的預測貳、反應變數為二分類別變數一、分類樹模型建構二、分類樹分割路徑三、分類樹圖形四、分類樹殘差值五、不同引數界定的分類樹Chapter 05決策樹的圖形繪製壹、函數rpart.plot ( )貳、函數prp ( )一、繪製圖形基本引數二、節點標記調整的引數三、控制分支標記的引數四、調整樹分支線的引數參、繪圖函數應用肆、解釋變數為因子變數的決策樹圖形繪製伍、圖形決策樹的修剪陸、套件{plotmo}函數plotmo ( )的應用Chapter 06複核效度驗證壹、預測分類函數貳、資料檔的分割預測一、系統抽樣切割資料檔二、隨機抽樣切割資料檔三、分層隨機抽樣切割資料檔參、反應變數為三分類別變數一、單一效度檢定二、平均效度檢定肆、分層隨機抽樣函數Chapter 07k疊交互驗證法壹、六疊效度驗證法一、採用系統抽樣法二、採用隨機抽樣法貳、連續變數之分類樹的應用一、分類樹模型建構二、分類樹模型效度檢定參、十疊交互驗證法Chapter 08套件{evtree}的函數應用壹、函數evtree ( )語法貳、函數應用一、迴歸樹二、分類樹三、反應變數為多分類別變數參、套件{evtree}函數predict ( )一、分層隨機抽樣二、系統抽樣 (有排序)三、系統抽樣 (未排序)四、大樣本決策樹的應用Chapter 09套件{partykit}的函數應用壹、ctree ( )函數貳、函數應用—迴歸樹一、決策樹模型建構二、分類準則設定三、葉節點的差異比較參、繪製決策樹圖函數plot ( )肆、函數lmtree ( )與glmtree ( )一、函數lmtree ( )的應用二、函數glmtree ( )的應用伍、分類樹的應用一、適配分類樹模型I建構二、繪製適配分類樹圖三、適配分類樹模型II建構與繪製陸、大樣本的應用一、適配迴歸樹模型二、適配分類樹模型柒、預測函數predict ( )Chapter 10套件{RWeka}與套件{tree}的函數應用壹、套件{RWeka}函數J48 ( )函數一、函數J48 ( )語法二、函數應用三、效度檢定貳、套件{tree}函數tree ( )參、顯著性與決策樹關係一、相關與迴歸樹二、差異與分類樹Chapter 11複迴歸與迴歸樹壹、基本套件lm ( )的函數應用貳、套件{Blossom}函數ols ( )與lad ( )的應用一、函數ols ( )二、函數lad ( )參、套件{psych}函數setCor ( )的應用肆、套件{rms}函數ols ( )的應用伍、迴歸樹一、套件{GGally}相關矩陣圖函數二、迴歸樹模型三、解釋變數重要性檢核四、迴歸樹預測效度Chapter 12邏輯斯迴歸分析與分類樹壹、邏輯斯迴歸分析一、資料框架物件解析二、套件{radiant}函數logistic ( )的應用三、套件{rms}函數lrm ( )的應用貳、分類樹一、套件{rpart}函數rpart ( )二、套件{partykit}函數ctree ( )三、套件{evtree}函數evtree ( )參、套件{C50}函數C5.0 ( )的應用肆、拔靴法分類樹伍、套件{rpartScore}函數rpartScore ( )的應用Chapter 13區別分析與分類樹壹、區別分析一、套件{DiscriMiner}函數應用二、套件{mda}函數fda ( )三、套件{MASS}函數lda ( )四、區別分析效度檢定貳、分類樹一、套件{rpart}函數rpart ( )二、套件{partykit}函數ctree ( )三、套件{evtree}函數evtree ( )四、套件{Rweka}函數J48 ( )五、套件{C50}函數C5.0 ( )Chapter 14函數與流程控制壹、自訂函數貳、迴圈(loop)參、邏輯條件判別肆、統計分析的應用一、相關矩陣二、t檢定的應用三、單因子變異數分析的應用伍、決策樹的應用陸、決策樹向度變數Chapter 15RStudio整合發展環境壹、RStudio整合開發環境界面與專案貳、智慧型自動完成指令參、編輯器語法指令的執行肆、各種選項的設定伍、套件安裝與載入陸、外部資料檔匯入

商品規格

書名 / R軟體在決策樹的實務應用
作者 / 吳明隆 張毓仁
簡介 / R軟體在決策樹的實務應用:本書特色:●從使用者觀點出發,實務的角度論述,有系統地介紹R軟體在資料探勘預測分類的實務應用。●內容詳細介紹不同套件函數在決策樹的使用方
出版社 / 五南圖書出版股份有限公司
ISBN13 / 9789571191492
ISBN10 / 9571191493
EAN / 9789571191492
誠品26碼 / 2681466128002
頁數 / 640
開數 / 16K
注音版 /
裝訂 / P:平裝
語言 / 1:中文 繁體
級別 / N:無

試閱文字

內文 : 分類 (classification) 為資料探勘 (data miniing) 領域的一個範疇,與區別分析、邏輯斯 (logistic) 迴歸分析的功能類似。預測分類的統計程序常見的方法有集群分析、迴歸分析、區別分析、邏輯斯迴歸、決策樹 (decision tree) 等。決策樹的功能在於分類與預測,演算程序從總樣本觀察值中,找到一個最佳的分割變數,將觀察值進行分組,次則從分組後的子資料集中,再找出最佳的分割變數將子資料集分成小資料集,此種程序的演算程序類似樹的成長,分割的次數愈多,樹的成長愈繁雜,樹的起始處稱為根節點 (root node)、樹的結束處稱為葉節點 (leaf node) 或終點節點 (terminal node)。
  分類中的決策樹 (decision tree) 依效標變數 (依變數/反應變數) 變數尺度不同,分成迴歸樹 (regression tree) 與分類樹 (classification tree),效標變數 (反應變數) 如為等距變數或比率變數 (計量變數),決策樹稱為迴歸樹,預測分類的結果為觀察值在效標變數的平均數;效標變數如為名義變數或次序變數 (間斷變數),決策樹稱為分類樹,預測分類的結果為觀察值在效標變數的水準群組或類別。書籍中的決策樹的依變數多以「反應變數」(response variable) 表示,預測變數以「解釋變數」(explanatory variables) 表示,依變數如為計量變數,則稱為「連續反應變數」(continuous-response variable),反應變數為二個水準群組的因子變數,稱為「二元反應變數」(binary response variable)。與複迴歸程序相同,決策樹程序中的解釋變數如為間斷變數要轉換化為虛擬變數 (dummy variable)。
  不同反應變數之變數屬性對應的預測分類統計程序如下表:

(表格)

  常見的決策樹演算法有二種,卡方自動交互偵測法 (Chi-square Automatic Interaction Detection; [CHAID])、分類迴歸樹法(Classification and Regression Tree; [CART]/[CRT]),其他決策樹演算法還有 AID 法、FACT 法、QUEST 法、C4.5 法、Ctree 法等。SPSS 統計軟體之決策樹成長方法主要為 CHAID 法、CRT(CART) 法、QUEST 法等幾種。R 軟體決策樹演算法多數採用 CART 法,CART是一種二元分類法,父節點分支為二個子節點,分割準則為左節點與右節點二個子節點 (child node) 的差異值最大,而子節點內樣本觀察值差異性最小 (相似性最大),分割前與分割後的不純度 (impurity) 量測值為最大,起始節點稱為根節點(root node)、結束節點稱為葉節點,根節點與葉節點間的節點稱為子節點 (childnode) 或分支節點,子節點負責連結根節點 (樹根) 與葉節點 (樹葉),又稱為分割點 (branching point),根節點與分支節點在決策樹模型中皆稱為內部節點。
  CART 決策樹 (classification and regression tree) 其實是一種二元樹狀結構(binary tree structured classifiers),分支條件的變數為解釋變數中的最重要變數(或最具預測力的變數),從分支條件的變數可以看出那一個解釋變數對反應變數有顯著的預測分類力。CART 分類演算法主要包括分類準則與不純度量測值(impurity measure),分類準則與集群分析相同,分割的左子節點與右子節點間的異質性最大 (左子節點與右子節點間的同質性最小),各子節點內觀察值的異質性最小 (同質性最高);反應變數若為類別變數,不純度量測值常見的方法為 Gini 指標法,反應變數為計量變數,不純度量測值為最小平方誤差法 (least squares deviation),一般判別指標值為離均差平方和 (sum of square of deviation from the mean; [SS])。至於解釋變數的重要性,可以從主要分割變數之改進值(improvement measure)(或稱改善值) 進行評定。