めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

予測モデルのハイパーパラメータチューニング・自動構築に関するめも

自分のためのメモ, 復習です.

定義

予測モデル

特徴ベクトル x から 教師データ y を予測するアルゴリズム.

ハイパーパラメータ

予測モデルや前処理の各アルゴリズムに付随するハイパーパラメータ.

予測パイプライン

データから何らかの値を予測するにはスケーリング・次元削減・欠損値補完などを行って最後に予測モデルへの入力を行う. その一連の流れを予測パイプラインとする.

最適化のためのアルゴリズム

何を「最適」にするのかによって分類. アルゴリズム、アルゴリズムのパラメータ、その両方を同時に、の3種類に分類してみる.

最適なアルゴリズム(予測モデル)の選択

最適なハイパーパラメータの選択

予測モデルにデータを入力して評価指標による評価が取得できる時、これは X を入力したら f(y)を出力する Black-box関数(中身の仕組みを見ることができず、入力と出力だけを確認できる関数)と見て Black-box関数最適化問題と見れる.

Hyperband

  • github

  • 論文

Li, Lisha, et al. "Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization." arXiv preprint arXiv:1603.06560 (2016).

最適なパイプラインの選択

先ほどと同じように巨大なBlack-box関数と見ることもできるが、

  • アルゴリズムの組み合わせパターンは組み合わせ数になる
  • ハイパーパラメータの数が非常に多い

ことから何らかの方法で探索回数を削減する工夫を加えないといけない.

SMAC(Sequential Modelbased Algorithm Configuration)

SMACとTPEはAutoML問題ではベースラインとなっている手法.

TPE(Tree-structured Parzen Estimator)

SMAC同様、ベースラインとなっている手法.

  • github

  • 論文

Zhang, Yuyu, et al. "FLASH: fast Bayesian optimization for data analytic pipelines." arXiv preprint arXiv:1602.06468 (2016).

AUTO-SKLEARN

  • github

  • 論文

Feurer, Matthias, et al. "Efficient and robust automated machine learning." Advances in Neural Information Processing Systems. 2015.

T-POT

  • github

  • 論文

Olson, Randal S., and Jason H. Moore. "TPOT: A Tree-based Pipeline Optimization Tool for Automating Machine Learning." Workshop on Automatic Machine Learning. 2016.

RECIPE

  • github

  • 論文

de Sá, Alex GC, et al. "RECIPE: A Grammar-Based Framework for Automatically Evolving Classification Pipelines." European Conference on Genetic Programming. Springer, Cham, 2017.

Predict-ML

  • 論文

Luo, Gang. "PredicT-ML: a tool for automating machine learning model building with big clinical data." Health information science and systems 4.1 (2016): 5.

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。