2018-08-13

How to Win a Data Science Competition: Learn from Top Kagglers（一週目）のメモ

書きかけ OCW 機械学習資格・認定

coursera
コース全体を通しての大まかな内容
Week1
Week2

コーセラの以下のコースを受講した際の聴講した内容を部分的にメモ。あくまで自分の理解で講義の中身そのものではないです。

coursera

コース全体を通しての大まかな内容

1~5週に分かれており、順番に

コンペの仕組み・基本的なアルゴリズムの前処理など
EDA(Exploratory Data Analysis)とデータの漏れのチェック、バリデーションデータの作成
mean encodingなどの特徴エンジニアリングと評価指標について
ハイパラチューニングとアンサンブル手法
実際のコンペで実践

の流れになっている。最後の課題は以下のコンペ。

Final project: predict future sales | Kaggle

Week1

コンペティションと実際の業務の違い

実際の業務は

解くべき問題を見つける
問題を定式化する
データを集める
前処理とモデルを作成する
テストを行う
実際にモデルを運用するためのインフラ整備など

の順番で行われるが、コンペティションで扱うのは「前処理と予測モデルの作成」のみ。

基本的なMLアルゴリズムの復習

k-NN、線形モデル、SVM、勾配ブースティングなどのモデルのアルゴリズムの基本的な箇所のみ紹介するがアルゴリズムの詳細には立ち入らない。コンペでよく使うpythonライブラリの紹介にとどめている。k-NNの実装やLight-BGMなどへのリンクは以下より。

XGBoostやLight-BGMのパラメータについては以下のサイトも参考になるかもしれない。

Laurae++: xgboost / LightGBM

必要なソフトウェア・ハードウェア

RAMが16Gあることを想定して以降は続く。オプションとしてはAWSなど。

前処理の基本

前処理

データの前処理について。スケーリングをなぜするか。scikit-learnのドキュメントも参考になる。スケーリングなしだとPCAの結果がどのように変わるかをプロットしている。

Importance of Feature Scaling — scikit-learn 0.19.2 documentation

異常値(outliers)の扱いについてよくある回帰の例とヒストグラムを例にして説明。

2.7. Novelty and Outlier Detection — scikit-learn 0.19.2 documentation

ランク形式への変換。つまり [0, 0.1, 1, 100]を [0, 1, 2, 3]へと変換する。 min-maxの場合と比較して分布が偏っているときにはこちらが適切な場合がある。ほかlogやsqrtの例など。Winsorizationについては以下。

特徴生成

GBTなどは特徴間の掛け合わせや割り算の特徴を作るのが難しいからEDAを通じて必要な可能性がある特徴は作成すべき。

ただしこれらの特徴生成や前処理はモデルの特性を意識して行う必要がある。決定木ベースの手法はスケーリングやランキングの前処理によっては性能の変化はないが、決定木でない手法は影響を大きく受ける、など。

カテゴリカル特徴・順序特徴

順序特徴(ordinal feature)は自動車のライセンスなどの順番がある特徴のこと。

カテゴリカル特徴にはいくつかエンコードの仕方がある。

one-hot-encoding
frequency encoding

など。

Datetimeの特徴量

周期性
XXから何日
特徴間の日数差

に注意する。他にも祝日フラグなどドメイン知識に基づいたフラグの追加なども考えられる。

座標の特徴量

データ内の代表的な場所の特徴を利用。クラスタリングなどで近い場所をまとめる。エリアごとに集約した統計量を用いる、クラスタの中心点までの距離など、

決定木ベースの手法を使うときは、座標上に斜めの境界ができないように回転させると精度が上がる可能性がある（より少ない木で境界を表現できるため）。

クラスタリングの具体的な方法は述べられていないが、たとえばkmeansやxmeans, tsne, umapなど。

k-means: sklearn.cluster.KMeans — scikit-learn 0.19.2 documentation
X-means
t-SNE
UMAP

講義とは関係ないけど、CNNで座標のデータを扱うときはフィルタの位置情報をフィルタに入れるとよくなるタスクが存在する。

欠損値

Hidden-NaNについて。KDD2018の以下の論文の disguised missing values (DMVs)に相当するもの（だろう）。ほとんどの記録されたレコードでは欠損値に相当する箇所に明示的にNaNが入れられているのではなく、-1や0が入れられている。それらの暗黙的な欠損値を分布の偏りなどから見つけ出して適切に扱うべき。

KDD 2018 | FAHES: A Robust Disguised Missing Values Detector

欠損値を埋めるアプローチの場合は

[-1]などの値で埋める
全体の平均とか
欠損した箇所を予測して埋める
欠損しているというフラグの特徴を追加するなど

scikit-learnの対応モジュールは sklearn.preprocessing.Imputer — scikit-learn 0.19.2 documentation

テキストと画像

bag of words
- sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.19.2 documentation
tf-idf
- sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation
embedding
- word2vecなど
ngram

すこし読みにくいですが以下のカーネルに基本的なものが出てくる。

Basic NLP: Bag of Words, TF-IDF, Word2Vec, LSTM | Kaggle

日本語用の構文解析は以下の記事のライブラリのどれかでいい(少なくともjanomeはpip installですぐに使える)。

英語の場合は大文字・小文字を同様に扱うか、過去形や過去分詞をどうするかなどのオプションが存在する。日本語でもカタカナ・ひらがな表記を同じに扱うか、など考慮する必要があるかもしれない。(lemmatization)

stemmingも似たような処理であり、似たような名詞・動詞から共通する箇所を抜き出して一つにまとめる。（走る、走った→走など）

word2vec

bag-of-wordsと比較して小さいサイズのベクトルで済む。しかし、ベクトルの各値の意味はbag-of-wordsと比較すると不明瞭。近い意味をもつ単語は近い空間に embedding される。

Word2Vec Tutorial - The Skip-Gram Model · Chris McCormick

Baseline Horror: What is Word2Vec? | Kaggle

一週目の最後はCNNのファインチューニングとdata-augmentationについて、省略。以下はdata-augmentationの例、回転などの一般的な変形はほとんどのライブラリで実装されている。ぼかしなどを加えるのはデータセットの特徴をみて判断したい。

Week2

2018-08-04

予測モデルの並列化実装のメモ(Deep以外)

メモ機械学習リンク集

特徴選択
k−近傍(KNN)
Adaboost
ランダムフォレスト(Random Forest)
勾配ブースティング(Gradient Tree Boosting)

特徴選択

k−近傍(KNN)

Adaboost

ランダムフォレスト(Random Forest)

勾配ブースティング(Gradient Tree Boosting)

Parallel Gradient Boosting Decision Trees

2018-02-01

no-show予測についてのメモ

機械学習書きかけ論文めも

no-show とは
各手法の要約

本当にただのメモ。

no-show とは

ホテルや病院において「予約したけど実際には現れないケース」がよく存在する。当然運営側としては「何人かはこないならば、その分を他の客に割り当てたい」し、その分のリソースを他に回せるので予測がしたい。いわゆるRevenue management 問題。

ありがちな応用分野として、以下など。論文が見つかったもののうちで上三つ。

病院やヘルスケア[1]
ホテル
イベント

[1] Alaeddini, Adel, et al. "A probabilistic model for predicting the probability of no-show in hospital appointments." Health care management science 14.2 (2011): 146-157.

各手法の要約

このような問題設定は、単純に予測を行えば良い、と言った問題ではないものが多い。病院の例だと、来ないと予測した人が全員きたら病室が足りない＝予測が失敗した時に大きなペナルティを払う必要がある。そのトレードオフのバランシングの方法、利用データ、目的関数の設定(利益maxやミス最小など)でいろいろな設定あり。

ヘルスケア関係

ホテルとか関係

交通機関関係

背景

Why is over booking of flights allowed? - Quora

気になる実装

機械学習

torchMoji
TensorFlow C++ and Python Image Recognition Demo
CycleGAN and pix2pix in PyTorch
YOLOv2 in PyTorch
python-topic-model
BanditLib

さいきんコード書いてないので読みながら勉強したい。

torchMoji

DeepMojiのpytorchでの実装。 LSTM周りを自分で書いている。

TensorFlow C++ and Python Image Recognition Demo

tensorflowのC++での実装のサンプル、BUILDの書き方など。C++の実装がとても少ないのでありがたい。resnet(inception v3)での画像分類モデル。環境にもよるが一回目のコンパイルはかなり時間がかかる。これと物体認識をあとでみたい。

CycleGAN and pix2pix in PyTorch

CycleGANのモデル本体とpix2pix本体。

YOLOv2 in PyTorch

物体認識系のモデルの実装をしたことがあまりないので。Faster-RCNNは少し。

python-topic-model

トピックモデルの実装が10種類くらい。

BanditLib

幾つかのbanditアルゴリズム(特にcontexualなもの)の実装。

2017-07-31

matplotlibでの散布図・プロット・アニメーションなどのサンプル集

python 可視化書きかけ機械学習

マルチラベルデータのプロット
- プロットするデータの作成
- 二次元で可視化
- 三次元で可視化
- 三次元で可視化してそれを回転させるアニメーションを作成
分類問題データのプロット
- Isomapで次元削減したものを可視化
- プロットのマーカを変える＋ランダムに色を生成する
その他
- 矢印をプロットに追加
- 棒グラフなどを模様で埋める(hatch)
- jupyter notebookでアニメーションを埋め込む
- 長方形の枠をプロットする
- ヒートマップのアニメーション
- 利用可能なカラーマップの取得
- 利用可能なマーカー（点の形）の一覧の取得
- ラベルの位置の調整
その他のプロットのサンプルコード
- 宇宙工学・天文学など
- seaborn のギャラリー
- matplotlibのギャラリー

毎回ぐぐるのもあれだったので。よく使うものでなるべくドキュメントのギャラリーになさそうなもの。

適当に追記するかもしれません。

2017-07-30

種々の決定木・ランダムフォレストの拡張についての資料集

機械学習論文・資料・スライド集メモ書きかけ

決定木(Decision Tree)
- ノード分割のルール
- Cost-sensitive decision tree
ランダムフォレスト(Random Forest)
Deep関係
応用先

たぶん新しいのが見つかるたびに追記します。ひとまず名前を聞いたことがあったりしたものだけ。およそ年代順。

決定木、ランダムフォレストのアルゴリズムの概略だけならこちらのlecture10あたりの資料で十分かも。式もついてるし。

決定木(Decision Tree)

ノード分割のルール

決定木のノードの分割のアルゴリズムについて。

ID3
C4.5
CART

Cost-sensitive decision tree

Krawczyk, Bartosz, Michał Woźniak, and Gerald Schaefer. “Cost-sensitive decision tree ensembles for effective imbalanced classification.” Applied Soft Computing 14 (2014): 554-562.

Ensembles of example dependent cost-sensitive decision trees slides from Alejandro Correa Bahnsen, PhD

www.slideshare.net

ランダムフォレスト(Random Forest)

Liaw, Andy, and Matthew Wiener. “Classification and regression by randomForest.” R news 2.3 (2002): 18-22.

機会学習ハッカソン：ランダムフォレスト from Teppei Baba

www.slideshare.net

Extremely Randomized Trees

Geurts, Pierre, Damien Ernst, and Louis Wehenkel. “Extremely randomized trees.” Machine learning 63.1 (2006): 3-42.

ノードの分岐に用いる特徴の選択が完全にランダム。

Alternating decision tree

Schulter, Samuel, et al. “Alternating decision forests.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013.

Decision Jungles

Shotton, Jamie, et al. “Decision jungles: Compact and rich models for classification.” Advances in Neural Information Processing Systems. 2013.

ランダムフォレストにおける子ノードへの結合が複数あるケースを許容するモデル。木→森→ジャングルと来て次はなんだろうか…。

Mondrian Forests

Balaji Lakshminarayanan, Daniel M. Roy and Yee Whye Teh, Mondrian Forests: Efficient Online Random Forests, NIPS 2014

videolectures.net

スライド資料：

http://www.gatsby.ucl.ac.uk/~balaji/mondrian_forests_slides.pdf

Boosted Random Forest

Mishina, Yohei, et al. “Boosted random forest.” IEICE Transactions on Information and systems 98.9 (2015): 1630-1636.

ランダムフォレストの結果による誤差でのサンプルへの重み付け（ブースティング）を繰り返し行う？

Canonical Correlation Forests

Rainforth, Tom, and Frank Wood. “Canonical correlation forests.” arXiv preprint arXiv:1507.05444 (2015).

Bayesian Forests

Taddy, Matt, et al. “Bayesian and empirical Bayesian forests.” arXiv preprint arXiv:1502.02312 (2015).

Random Composite Forests

DeSalvo, Giulia, and Mehryar Mohri. “Random Composite Forests.” AAAI. 2016.

Deep Forest

Zhou, Zhi-Hua, and Ji Feng. “Deep forest: Towards an alternative to deep neural networks.” arXiv preprint arXiv:1702.08835 (2017).

ランダムフォレストのスタッキング。

Deep forest from naoto moriyama

www.slideshare.net

Deep関係

Deep Neural Decision Forests

Kontschieder, Peter, et al. “Deep neural decision forests.” Proceedings of the IEEE International Conference on Computer Vision. 2015.

videolectures.net

ICCVでの発表の動画がありました。

Relating Cascaded Random Forests to CNN

Richmond, David L., et al. “Relating cascaded random forests to deep convolutional neural networks for semantic segmentation.” arXiv preprint arXiv:1507.07583 (2015).

Neural Random Forests

Biau, Gérard, Erwan Scornet, and Johannes Welbl. “Neural random forests.” arXiv preprint arXiv:1604.07143 (2016).

応用先

無数にあると思われるのですが、画像処理関係(物体認識、セマンティクセグメンテーションなど)は以下を参照してください。

coursera

コース全体を通しての大まかな内容

Week1

コンペティションと実際の業務の違い

基本的なMLアルゴリズムの復習

必要なソフトウェア・ハードウェア

前処理の基本

前処理

特徴生成

カテゴリカル特徴・順序特徴

Datetimeの特徴量

座標の特徴量

欠損値

テキストと画像

word2vec

Week2

特徴選択

k−近傍(KNN)

Adaboost

ランダムフォレスト(Random Forest)

勾配ブースティング(Gradient Tree Boosting)

no-show とは

各手法の要約

ヘルスケア関係

関連手法

ホテルとか関係

関連手法

交通機関関係

背景

関連手法

torchMoji

TensorFlow C++ and Python Image Recognition Demo

CycleGAN and pix2pix in PyTorch

YOLOv2 in PyTorch

python-topic-model

BanditLib

決定木(Decision Tree)

ノード分割のルール

Cost-sensitive decision tree

ランダムフォレスト(Random Forest)

Extremely Randomized Trees

Alternating decision tree

Decision Jungles

Mondrian Forests

Boosted Random Forest

Canonical Correlation Forests

Bayesian Forests

Random Composite Forests

Deep Forest

Deep関係

Deep Neural Decision Forests

Relating Cascaded Random Forests to CNN

Neural Random Forests

応用先

プライバシーポリシー