めも

メモ.

モデルの解釈性についてメモ

tutorial on interpretable machine learning(ICML 2017)の概要

Google BrainのBeen Kimさんによる資料

Interpretable Machine Learning: The fuss, the concrete and the questions: http://people.csail.mit.edu/beenkim/papers/BeenK_FinaleDV_ICML2017_tutorial.pdf

Doshi-Velez, Finale, and Been Kim. "Towards A Rigorous Science of Interpretable Machine Learning." arXiv preprint arXiv:1702.08608 (2017).

を見たときのメモです。

  • 「予測モデルの解釈性」で必要な要素とは

    • 決定木でデータに含まれるすべてのルールを表現することは「解釈」と言えるのか?
    • ルールのリストを作成することは解釈?
    • 「解釈」する=「データに含まれるすべての情報を説明する」ことではなく、解釈する人のしたいことを満たすのに必要な情報のみ抽出できればいい
    • 決定木・ルールリストなどある固定の方法ですべてのユーザーを「解釈」させることはできない
  • 解釈する

    • 解釈はいつ役に立つのか
      • 何を解釈したいのかは問題設定によって変化する
      • 定式化されていないものは解釈が必要となるが、一旦定式化されるとその解釈は不要となる
    • どのように解釈するための情報を伝えるのか
      • 解釈=データすべてを網羅するルールではない
    • どうやってその情報の良さを測るのか

    • データを解釈するための情報の表現の仕方のパターン

      • 探索的データ解析
      • 可視化
  • 解釈可能なモデルの種類

    • 作成するモデルの種類で解釈方法を分類する
      • ルールベースの手法
        • 決定木
        • rulefit
        • あらかじめ決めた関数を使う
        • 他多数
      • 事例、データに含まれるサンプルベースの手法
        • クラスタリング、類似する事例をまとめて表現する
      • スパース性ベース
        • 予測に関連が少ない項目は説明として使わない
        • スパースである != 解釈ができる
      • 単調性を利用する手法
    • モデルを作成した後で解釈をする
      • 感度分析(sensitivity analysis)
        • 予測結果が変化するような境界を探索する
        • 顕著性マップ
      • 作成したモデルに近いモデルを解釈可能なモデルで作成する
      • モデルの隠れ層を分析する
  • 解釈の良さをどの様に評価するか

    • 三つの視点
      • Function-based
      • Cognition-based
      • Application-based
  • 解釈する必要がない問題とは

    • 予測だけがしたい場合
    • 重要な結果が得られない・知ることができない場合
    • 既によく調べられた内容の場合

解釈性に関する手法

アンサンブル木の解釈

Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach. AISTATS'18

この論文は実装(github)も公開されています。「モデルを作成した後で解釈をする」ためのモデルを作成するタイプ。

  • 背景:解釈に関するトレードオフの存在

    • 解釈可能なモデル(決定木・rulefitなど)は複雑なモデルと比較して予測性能は高くない・複雑なモデルは解釈が難しい
    • 高性能な予測モデル=アンサンブル木を使用したモデルを学習し、それを解釈するためのモデルを別に準備する
  • なぜ高性能なモデルは解釈しづらい?

    • (分類を例に)決定境界が複雑になりがち
    • 数百〜数千作成される可能性のある木を簡単に「解釈」することはできない

  • 既存手法・この問題の課題
    • 木の深さによっては解釈が難しくなる
    • 問題設定が分類・回帰のどちらかに限定されている
    • 木が増えるとその分岐は指数的に増えていく、しかし人間はたかだかK個程度の規則しか解釈できない
    • 提案:アンサンブル木は入力となる特徴の空間と予測値で表現できて予測値と領域を最適化するようなKを自動的に決定する、FABを用いてKはユーザーが指定せずとも自動的に決定できる

Rulefit

「スパース性ベース」の手法。ブースティングで分類・回帰モデルを作成し、L1正則化を行い残った”ルール”を列挙する。

深層学習モデルの解釈

www.slideshare.net

「モデルを作成した後で解釈をする」、「モデルの隠れ層を分析する」パターン。

見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑

見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑

  • 作者: 秋庭伸也,杉山阿聖,寺田学,加藤公一
  • 出版社/メーカー: 翔泳社
  • 発売日: 2019/04/17
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る