[1] Chandrashekar, Girish, and Ferat Sahin. "A survey on feature selection methods." Computers & Electrical Engineering 40.1 (2014): 16-28.
[2] Khalid, Samina, Tehmina Khalil, and Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." 2014 Science and Information Conference. IEEE, 2014.
[3] Miao, Jianyu, and Lingfeng Niu. "A survey on feature selection." Procedia Computer Science 91 (2016): 919-926.
[5] Zhao, Zheng, and Huan Liu. "Semi-supervised feature selection via spectral analysis." Proceedings of the 2007 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2007.
参考文献: Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International Journal of Data Mining & Knowledge Management Process, 5(2), 1.
二値
多くは多値分類の指標にもなる。
二値分類の混合行列(Confusion Matrix)
表: 二値分類の混合行列
正解\予測
1
0
1
True Positive
False Negative
0
False Positive
True Negative
表の見方。True Positice = 正解が1で、予測が1だった、など。
以下ではTruePositive = 「True Positice となったデータ数」を指します。
Accuracy(正解率)
全データ数に対して、正解したデータ数の割合。
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y, y_pred)
Precision(適合率、精度)
1と予測したもののうち、実際に1だった割合。
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y, y_pred)
参考文献:
Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427-437.
Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International Journal of Data Mining & Knowledge Management Process, 5(2), 1.
Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427-437.
Sorower, Mohammad S. "A literature survey on algorithms for multi-label learning." Oregon State University, Corvallis (2010).
― Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International Journal of Data Mining & Knowledge Management Process, 5(2), 1.
最後に、固定値をとる特徴や重複した特徴などの除去などの data cleaning を行う。特徴だけでなくサンプルの重複も確認して、なぜサンプル(dfの一行)が重複しているかを理解する。最後にデータが完全にランダムにサンプリングされているものか、何等かの時系列など規則に基づいてサンプリングされているかを確認する。