めも

メモ.

前処理

pythonで日付(タイムスタンプの文字列)から日付の特徴を作成する

必要ライブラリ 文字列からタイムスタンプを取得 曜日 祝日フラグ 次の日が休日 次の日が平日 元旦から何日目か 年と週番号(元旦から第何週目か) 月と日 年度始めから何日目か その月の平日と休日の一覧 その月に平日と休日が何日あるか 一年前の今日に一…

予測モデルのハイパーパラメータチューニング・自動構築に関するめも

定義 予測モデル ハイパーパラメータ 予測パイプライン 最適化のためのアルゴリズム 最適なアルゴリズム(予測モデル)の選択 最適なハイパーパラメータの選択 Hyperband 最適なパイプラインの選択 SMAC(Sequential Modelbased Algorithm Configuration) TPE(T…

pythonでgensimを使ってトピックモデル(LDA)を行う

LDA用のデータの作成 単語の辞書を作成して出力 外部に保存したコーパスと辞書の読み込み LDAの実行 コード 出力例 gensimとjanomeを用いたLDAを行います。 必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…

データの次元削減に関する資料集

次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighb…

Python3、janomeで形態素解析

Welcome to janome’s documentation! — Janome v0.2 documentation の Janomeを使用。MecabをUbuntu で使用するときは文字コードあたりがめんどくさかった記憶があるので(使ったことはあったけど)パス。 janome のインストール Ubuntu 14.04 、python3の環…

PythonのJanomeで形態素解析、webをクローリングしてテキストを集めてトピックモデルを作成する

やりたいこと クローリング データの準備 コード ウェブのHTMLをパースする コード 例 コード データのクローリング コード 形態素解析 トピックモデルを作るためのベクトル作成 やりたいこと 特定のまとまりのWebページを集めて、トピック(共通に出てくる…

pythonでdenoising auto encoderを使ってデータを前処理する

概要 モデル定義 ノイズ付加 デノイジングオートエンコーダーの訓練 損失関数の推移 概要 まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…

pythonでAutoencoderを動かす

環境 モデルの定義 出力 モデルの訓練 誤差の減少具合 オートエンコーダーのモデルを複雑に 二つのモデルの比較 参考 環境 python2.7, ubuntu14.04上。Kerasを使用して、入力はベクトルを想定。 モデルの定義 print(autoencoder.summary())とすればモデルに…

pythonで相関係数を可視化する

問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

pythonで母集団の分布を確認する

各特徴の分布を確認 目的値ごとに分布に違いがあるのかを確認する 2変数間の関係を見る 等高線をプロットして分布を確認する 前提として、2クラス分類。 データに含まれる特徴量は data_train.columns.values >> array(['feature1', 'feature2', 'feature3',…