進階搜尋


   電子論文尚未授權公開,紙本請查館藏目錄
(※如查詢不到或館藏狀況顯示「閉架不公開」,表示該本論文不在書庫,無法取用。)
系統識別號 U0026-0507201613433400
論文名稱(中文) 不平衡資料檔下比較兩分類演算法效能之統計方法
論文名稱(英文) Statistical methods for comparing the performance of two classification algorithms on imbalanced data sets
校院名稱 成功大學
系所名稱(中) 資訊管理研究所
系所名稱(英) Institute of Information Management
學年度 104
學期 2
出版年 105
研究生(中文) 林哲玄
研究生(英文) Che-Hsuan Lin
學號 R76031016
學位類別 碩士
語文別 中文
論文頁數 89頁
口試委員 指導教授-翁慈宗
口試委員-蔡青志
口試委員-劉任修
口試委員-陳榮泰
中文關鍵字 二維常態分配  不平衡資料檔  召回率  精確率  t檢定 
英文關鍵字 Bivariate normal distribution  imbalanced data set  precision  recall  sampling distribution 
學科別分類
中文摘要 在資料探勘的領域中,分類演算法的表現是在進行資料預測時一個很重要的因素,現在大多的研究是以分類正確率去評判分類演算法的好壞,而分類正確率確實是最能直接看出分類演算法好壞的一個指標,但當面對分佈不平衡的資料檔或存在著部份類別值有著較高預測錯誤成本的分類預測問題時,利用分類正確率作為評估依據而建議使用的分類演算法將會產生較不合適的分類預測結果,此類的分類演算法會將大部分的結果預測成訓練資料中類別值數量較多的部分,但少部分且較為關注的類別值將會被預測錯誤,但因為其佔資料總筆數較少,所以仍會有較高的分類正確率,因此本研究主要是要使用召回率(Recall)、精確率(Precision)與兩者結合等評估測度,並應用統計檢定去探討當使用這些測度在評估不平衡資料檔時,是否能找出較適合的分類演算法。本研究利用統計推導方法,推導出召回率與精確率之抽樣分配服從常態分配,並利用假設檢定去比較兩分類演算法之表現是否有顯著差異,而在兩測度整合的方面,先利用二維常態去推導兩者結合後會服從常態分配,再去檢定兩兩分類演算法的分類表現。在實證研究中,主要針對不平衡資料檔做測試,並使用召回率、精確率與整合測度去作為評估測度,在簡易貝氏、k最近鄰分類、多層感知器與基於規則分類,這四個分類演算法中,兩兩進行統計檢定,去比較其差異量的顯著性,結果顯示,使用本研究推導的統計方法,可以在不平衡資料檔下用來比較不同分類演算法效能的差異。
英文摘要 The performance of classification algorithms are generally evaluated by accuracy. However, when the numbers of instances or the misclassification costs for various class values are largely different, accuracy is no longer an appropriate measure for performance evaluation. Some other measures such as recall and precision will be better choices for imbalance data sets. This study presents parametric methods for comparing the performance of two classification algorithms on multiple imbalance data sets when the evaluation measure is recall, precision, or their arithmetic mean. When the testing results satisfy the large-sample conditions, the sampling distributions of both recall and precision can be assumed to be normally distributed. Since recall and precision for the same data set are dependent, their arithmetic mean is assumed to follow a bivariate normal distribution for deriving its sampling distribution. There are four classification algorithms considered in this study. The experimental results on seven imbalance data sets demonstrate that the parametric methods proposed in this study can effectively compare the performance of two classification algorithms on multiple imbalance data sets.
論文目次 目錄
摘要 I
目錄 VI
表目錄 VIII
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究架構 2
第二章 文獻探討 3
2.1 分類器之分類正確率估算 3
2.2 不平衡資料檔下的評估測度 6
2.3 多個資料檔下作兩分類器之比較 8
2.4 二維常態分配 9
2.5 小結 11
第三章 研究方法 12
3.1 召回率與精確率個別作為評估測度 12
3.2 兩評估測度的整合 21
3.3 多個資料檔下使用單一評估測度 32
3.4 多個資料檔下使用整合測度評估 44
3.5 驗證方法 50
第四章 實證研究 52
4.1 資料檔之特性 52
4.2 單一資料檔下的比較 54
4.3 多個資料檔下的比較 68
4.4 小結 75
第五章 結論與建議 78
5.1 結論 78
5.2 建議與未來發展 79
參考文獻 80
附錄一 四個分類演算法在八個資料檔內之4等分召回率、精確率與正確率 82

參考文獻 陳育生,(2015)。多個資料檔下比較兩分類方法表現之有母數統計方法。國立成功大學資訊管理研究所碩士論文。
Airola, A., Pahikkala, T., Waegeman, W., Baets, B. D., and Salakoski, T. (2011). An experimental comparison of cross-validation techniques for estimating the area under the ROC curve. Computational Statistics and Data Analysis ,55, 1828–1844.
Alcala-Fdez, J., Fernandez, A., Luengo, J., Derrac, J., and Garcia, S. (2011). KEEL data-mining software tool: Data set repository, integration of algorithms and experimental analysis framework. Journal of Multi-Valued Logic and Soft Computing, 17, 255–287.
Bache, K. and Lichman, M. (2013). UCI machine learning repository. http://www.ics.uci.edu/~mlearn/MLRepository.html.
Bouckaert, R. R. (2003). Choosing between two learning algorithms based on calibrated tests. Proceedings of the 20th International Conference on Machine Learning (ICML-03), 51-58.
Bouckaert, R. R. (2003). Choosing learning algorithms using sign tests with high replicability. AI2003: Advances in Artificial Intelligence, 2903, 710-722
Bryant, E. C.,(1915). Statistical Analysis. McGraw Hill
Demsar, J. (2006). Statistical comparisons of classifiers over multiple data sets. The Journal of Machine Learning Research ,7, 1-30.
Dudoit, S. and Van der Laan, M. J. (2003). Unified cross-validation methodology for selection among estimators and a general cross-validated adaptive epsilon-net estimator: Finite sample oracle inequalities and examples. University of California : U.C. Berkeley Division of Biostatistics Working Paper Series, 2003:130.
Garcia, S., Fernandez, A., Luengo, J., and Herrera, F. (2009). A study of statistical techniques and performance measures for genetics-based machine learning: accuracy and interpretability. Soft Computing , 13(10), 959-977
Garcia, V., Mollineda, R. A., and Sanchez, J. S. (2014). A bias correction function for classification performance assessment in two-class imbalanced problems. Knowledge-Based Systems , 59 , 66–74
Han, J. and Kamber, M. (2006). Data Mining Concepts and Techniques. Morgan kaufmann.
López, V., Fernández, A., Moreno-Torres , J. G., and Herrera, F. (2012). Analysis of preprocessing vs. cost-sensitive learning for imbalanced classification. Open problems on intrinsic data characteristics. Expert Systems with Applications , 39 , 6585–6608.
Maratea, A., Petrosino, A., and Manzo, M. (2014). Adjusted F-measure and kernel scaling for imbalanced data Learning. Information Sciences , 331–341.
Mendenhall, W., Beaver, R., and Beaver, B. (2012). Introduction to Probability and Statistics. Cengage Learning.
Mitchell, T. M. (1997). Machine Learning . McGraw Hill
Sendecor, G. W. and Cochran, W. G. (1982). Statistical Methods.
Weerdt, J. D., Backer, M. D., Vanthienen, J., and Baesens, B. (2011). A Robust F-measure for Evaluating Discovered Process Models. Proceedings 2011 IEEE Symposium on Computational Intelligence and Data Mining , 148–155.
Welch, B. L. (1938). The significance of the difference between two means when the population variances are unequal. Biometrika , 29, 350-362.
Wong, T. T. (2015). Performance evaluation of classification algorithms by k-fold and leave-one-out cross validation. Pattern Recognition , 48, 2839-2846.
論文全文使用權限
  • 同意授權校內瀏覽/列印電子全文服務,於2021-07-01起公開。
  • 同意授權校外瀏覽/列印電子全文服務,於2021-07-01起公開。


  • 如您有疑問,請聯絡圖書館
    聯絡電話:(06)2757575#65773
    聯絡E-mail:etds@email.ncku.edu.tw