自分のためのメモ, 復習です.
定義
予測モデル
特徴ベクトル x から 教師データ y を予測するアルゴリズム.
ハイパーパラメータ
予測モデルや前処理の各アルゴリズムに付随するハイパーパラメータ.
予測パイプライン
データから何らかの値を予測するにはスケーリング・次元削減・欠損値補完などを行って最後に予測モデルへの入力を行う. その一連の流れを予測パイプラインとする.
最適化のためのアルゴリズム
何を「最適」にするのかによって分類. アルゴリズム、アルゴリズムのパラメータ、その両方を同時に、の3種類に分類してみる.
最適なアルゴリズム(予測モデル)の選択
最適なハイパーパラメータの選択
予測モデルにデータを入力して評価指標による評価が取得できる時、これは X を入力したら f(y)を出力する Black-box関数(中身の仕組みを見ることができず、入力と出力だけを確認できる関数)と見て Black-box関数最適化問題と見れる.
Hyperband
- github
- 論文
Li, Lisha, et al. "Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization." arXiv preprint arXiv:1603.06560 (2016).
最適なパイプラインの選択
先ほどと同じように巨大なBlack-box関数と見ることもできるが、
- アルゴリズムの組み合わせパターンは組み合わせ数になる
- ハイパーパラメータの数が非常に多い
ことから何らかの方法で探索回数を削減する工夫を加えないといけない.
SMAC(Sequential Modelbased Algorithm Configuration)
SMACとTPEはAutoML問題ではベースラインとなっている手法.
TPE(Tree-structured Parzen Estimator)
SMAC同様、ベースラインとなっている手法.
FLASH(Fast LineAr SearcH)
- github
- 論文
Zhang, Yuyu, et al. "FLASH: fast Bayesian optimization for data analytic pipelines." arXiv preprint arXiv:1602.06468 (2016).
AUTO-SKLEARN
- github
- 論文
Feurer, Matthias, et al. "Efficient and robust automated machine learning." Advances in Neural Information Processing Systems. 2015.
T-POT
- github
- 論文
Olson, Randal S., and Jason H. Moore. "TPOT: A Tree-based Pipeline Optimization Tool for Automating Machine Learning." Workshop on Automatic Machine Learning. 2016.
RECIPE
- github
- 論文
de Sá, Alex GC, et al. "RECIPE: A Grammar-Based Framework for Automatically Evolving Classification Pipelines." European Conference on Genetic Programming. Springer, Cham, 2017.
Predict-ML
- 論文
Luo, Gang. "PredicT-ML: a tool for automating machine learning model building with big clinical data." Health information science and systems 4.1 (2016): 5.