進階搜尋


下載電子全文  
系統識別號 U0026-0507201613343800
論文名稱(中文) 評估兩相依分類演算法效能之方法
論文名稱(英文) A method for evaluating the performance of two dependent classification algorithms
校院名稱 成功大學
系所名稱(中) 資訊管理研究所
系所名稱(英) Institute of Information Management
學年度 104
學期 2
出版年 105
研究生(中文) 何儀珊
研究生(英文) Yi-Shan He
電子信箱 m44495@hotmail.com
學號 R76031058
學位類別 碩士
語文別 中文
論文頁數 58頁
口試委員 指導教授-翁慈宗
口試委員-蔡青志
口試委員-劉任修
口試委員-陳榮泰
中文關鍵字 二維常態分配  相依分析  抽樣分配  相關係數  分類演算法 
英文關鍵字 Bivariate normal distribution  classification algorithm  correlation coefficient  dependency analysis  sampling distribution 
學科別分類
中文摘要 根據文獻資料了解,在資料探勘領域中,大多數論文或研究所假設的實驗狀況多為假設兩分類方法間互相獨立的情形,但實際上分類方法之間卻有可能有相依情況,而忽略掉相依性,就有可能會因評斷錯誤而影響到研究結果,因此本研究的目的在於,提出判斷兩分類方法之間是否會產生相依性的依據,以及經過嚴謹的統計推導,來比較兩相依分類方法的成效差異之方法。首先,必須先推論出分類方法之間是否有相依關係,因此本研究方法將採用K等份交叉驗證法,透過多個資料檔來作學習與測試,且採用成對樣本研究切割學習資料與測試資料,來計算出每等份間成對的分類正確率,並以分類正確率得到相關係數,以確認兩分類方法間是否有顯著相依性,而針對兩相依分類演算法,在統計上對各個參數作嚴謹的統計推導,來比較兩相依分類器的成效差異;而在實證研究中,主要進行兩組實驗來推論出兩分類演算法之間相依性的依據,相同但設定不同參數的兩分類演算法,大部份的分類演算法中,兩學習結果的重疊範圍較大,因此大部份資料檔下都有顯著相依關係,而兩個完全不同的演算法中,兩學習結果幾乎完全不同,因此在大部份資料檔中並無顯著相依關係,接著將有顯著相依的兩分類演算法,以本研究提出的統計推論方式及假設兩分類演算法獨立的方法,來比較兩分類演算法成效差異,經由20個資料檔以及4組分類演算法的實證研究,結果顯示本研究方法會比假設兩分類演算法獨立的方法,較能顯示兩相依分類演算法的成效有顯著差異。
英文摘要 In evaluating the performance of classification algorithms, most studies assumed that the accuracy estimates for various algorithms are independent. The dependency among the accuracy estimates may have impact on performance evaluation. When classification algorithms are evaluated by k-fold cross validation, this study first proposes a method to determine whether their accuracy estimates are dependent. This method collects the accuracy estimates by the matched sample approach to calculate the correlation coefficient for dependency analysis. If two classification algorithms are dependent, statistical methods are then presented to compare their performance on multiple data sets. The experiment on 20 data sets for the dependency analysis on four classification algorithms suggest that two classification algorithms can be assumed to be independent when either their model spaces are completely different or their search strategies can have significantly different learning results. The experimental results also demonstrate that the statistical methods proposed in this study can be applied on dependent classification algorithms for performance comparison.
論文目次 摘要 I
誌謝 V
目錄 VI
表目錄 VIII
第一章 緒論 1
1.1研究背景與動機 1
1.2研究目的 2
1.3論文架構 2
第二章 文獻探討 3
2.1 分類器之分類正確率估算 3
2.2 二維常態分配 6
2.3 分類方法的評估與比較 8
2.3.1 單一資料檔下作兩分類器的比較 9
2.3.2 多個資料檔下作兩分類器之比較 11
2.3.3 多個資料檔下作多個分類器之比較 12
2.4分類演算法於訓練時的偏誤 13
2.5 小結 13
第三章 研究方法 14
3.1 運用單一資料檔檢定兩分類方法相依關係之方法 14
3.2 單一資料檔下比較兩相依分類器成效之方法 17
3.3 多個資料檔下比較兩相依分類器成效之方法 19
3.4 方法評估 26
第四章 實證研究 28
4.1資料檔與分類演算法的特性 28
4.2兩分類演算法的相依性測試 30
4.2.1計算兩分類演算法分類正確率之方法 30
4.2.2不同演算法分類正確率之間的相依性 33
4.2.3 相依性評斷依據 33
4.3多資料檔下比較兩相依分類演算法成效差異 35
4.3.1 單一資料檔下比較兩分類演算法 35
4.3.2 多個資料檔下比較兩分類演算法 36
4.4小結 45
5.1結論 48
5.2建議與研究發展 49
參考文獻 50
附錄一 52
參考文獻 陳育生 (2015)。 多個資料檔下比較兩分類方法表現之有母數統計方法。國立成功大學資訊管理研究所碩士論文。
Alpaydm, E. (1999). “Combined 5x2cv F test for comparing supervised classification learning algorithms.” Neural Computation 11(8): 1885-1892.
Bache, K. and Lichman, M. (2013). UCI machine learning repository http://www.ics.uci.edu/~mlearn/MLRepository.html.
Bilal, M. A. and Richard, H. M. (2011). Probability, Statistics, and Reliability for Engineers and Scientists. England: CRC Press.
Bouckaert, R. R. (2003). “Choosing between two learning algorithms based on calibrated tests.” Proceedings of The 20th International Conference on Machine Learning (ICML-03). 51-58.
Demsar, J. (2006). “Statistical comparisons of classifiers over multiple data sets.” The Journal of Machine Learning Research 7:1-30.
Dietterich, T. G. (1998). “Approximate statistical tests for comparing supervised classification learning algorithms.” Neural Computation 10(7): 1895-1923.
Dudoit, S. and Laan, M. J. (2003). “Unified cross-validation methodology for selection among estimators and a general cross-validated adaptive epsilon-net estimator: finite sample oracle inequalities and examples.” University of California: U.C. Berkeley Division of Biostatistics Working Paper Series 2003:130.
Fayed, H. A. and Atiya, A. F. (2013). “An Evaluation of the integral of the product of the error function and the normal probability density with application to the bivariate normal integral.” Mathematics of Computation 83(285):235-250.
Garcia, S., Fernandez, A., Luengo, J., and Herrera, F. (2009). “A study of statistical techniques and performance measures for genetics-based machine learning: accuracy and interpretability.” Soft Computing 13(10):959-977.
Joarder, A. H. (2008). “Some useful integrals and their applications in correlation analysis.” Statistical Papers 49:211-224.
Joarder, A. H. and Omar, M. H. (2008). “A mass function based on correlation coefficient and its application.” Statistics and Probability Letters 78(2008):3344-3349.
Snedecor, G. W. and Cochran, W. G. (1982). Statistical Methods. Ames, Iowa, U.S.A: The Lowa State University Press
Mitchell, T. M. (1997). Machine Learning U.S.A: McGraw Hill
Nie, L., Chu, H. T., and Korostyshevskiy, V. R. (2008). “Bias reduction for nonparametric correlation coefficients under the bivariate normal copula assumption with known detection limits.” The Canadian Journal of Statistics 36(3):427-442.
Omar, H. M., Joarder, A, H., and Riaz, M. (2015). “On a correlated variance ratio distribution and its industrial application.” Communications in Statistics-Theory and Methods 44:261-274.
Rodriguez, J. D., Perez, A., and Lozano, J. A. (2010). “Sensitivity analysis of k-fold cross validation in prediction error estimation.” IEEE Transactions on Pattern Analysis and Machine Intelligence 32(3):569-575.
Welch, B. L. (1938). “The significance of the difference between two means when the population variances are unequal.” Biometrika 29:350-362.
Whigham, P. A. (1996). “Search bias, language bias and genetic programming. ” Proceedings Proceedings of the 1st Annual Conference on Genetic Programming:230-237
Witten, I. H. and Frank, E. (2005). Data mining: Practical Machine Learning Tools and Techniques. U.S.A: Morgan Kaufmann.
Wong, T. T. (2015). “Performance evaluation of classification algorithms by k-fold and leave-one-out cross validation” Pattern Recognition 48(9):2839-2846.
論文全文使用權限
  • 同意授權校內瀏覽/列印電子全文服務,於2020-01-01起公開。
  • 同意授權校外瀏覽/列印電子全文服務,於2020-01-01起公開。


  • 如您有疑問,請聯絡圖書館
    聯絡電話:(06)2757575#65773
    聯絡E-mail:etds@email.ncku.edu.tw