前処理
必要ライブラリ 文字列からタイムスタンプを取得 曜日 祝日フラグ 次の日が休日 次の日が平日 元旦から何日目か 年と週番号(元旦から第何週目か) 月と日 年度始めから何日目か その月の平日と休日の一覧 その月に平日と休日が何日あるか 一年前の今日に一…
定義 予測モデル ハイパーパラメータ 予測パイプライン 最適化のためのアルゴリズム 最適なアルゴリズム(予測モデル)の選択 最適なハイパーパラメータの選択 Hyperband 最適なパイプラインの選択 SMAC(Sequential Modelbased Algorithm Configuration) TPE(T…
LDA用のデータの作成 単語の辞書を作成して出力 外部に保存したコーパスと辞書の読み込み LDAの実行 コード 出力例 gensimとjanomeを用いたLDAを行います。 必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…
次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighb…
Welcome to janome’s documentation! — Janome v0.2 documentation の Janomeを使用。MecabをUbuntu で使用するときは文字コードあたりがめんどくさかった記憶があるので(使ったことはあったけど)パス。 janome のインストール Ubuntu 14.04 、python3の環…
やりたいこと クローリング データの準備 コード ウェブのHTMLをパースする コード 例 コード データのクローリング コード 形態素解析 トピックモデルを作るためのベクトル作成 やりたいこと 特定のまとまりのWebページを集めて、トピック(共通に出てくる…
概要 モデル定義 ノイズ付加 デノイジングオートエンコーダーの訓練 損失関数の推移 概要 まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…
やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…
環境 モデルの定義 出力 モデルの訓練 誤差の減少具合 オートエンコーダーのモデルを複雑に 二つのモデルの比較 参考 環境 python2.7, ubuntu14.04上。Kerasを使用して、入力はベクトルを想定。 モデルの定義 print(autoencoder.summary())とすればモデルに…
問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…
各特徴の分布を確認 目的値ごとに分布に違いがあるのかを確認する 2変数間の関係を見る 等高線をプロットして分布を確認する 前提として、2クラス分類。 データに含まれる特徴量は data_train.columns.values >> array(['feature1', 'feature2', 'feature3',…