pythonで日付（タイムスタンプの文字列）から日付の特徴を作成する

python コード前処理時系列

必要ライブラリ文字列からタイムスタンプを取得曜日祝日フラグ次の日が休日次の日が平日元旦から何日目か年と週番号（元旦から第何週目か）月と日年度始めから何日目かその月の平日と休日の一覧その月に平日と休日が何日あるか一年前の今日に一…

2017-07-07

予測モデルのハイパーパラメータチューニング・自動構築に関するめも

定義予測モデルハイパーパラメータ予測パイプライン最適化のためのアルゴリズム最適なアルゴリズム(予測モデル)の選択最適なハイパーパラメータの選択 Hyperband 最適なパイプラインの選択 SMAC(Sequential Modelbased Algorithm Configuration) TPE(T…

2016-11-06

pythonでgensimを使ってトピックモデル(LDA)を行う

自然言語処理 python データ解析前処理機械学習

LDA用のデータの作成単語の辞書を作成して出力外部に保存したコーパスと辞書の読み込み LDAの実行コード出力例 gensimとjanomeを用いたLDAを行います。必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…

2016-10-31

データの次元削減に関する資料集

論文・資料・スライド集書きかけリンク集前処理

次元削減とはデータの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighb…

2016-10-28

Python3、janomeで形態素解析

自然言語処理前処理

Welcome to janome’s documentation! — Janome v0.2 documentation の Janomeを使用。MecabをUbuntu で使用するときは文字コードあたりがめんどくさかった記憶があるので（使ったことはあったけど）パス。 janome のインストール Ubuntu 14.04 、python3の環…

2016-10-28

PythonのJanomeで形態素解析、webをクローリングしてテキストを集めてトピックモデルを作成する

自然言語処理機械学習書きかけ前処理

やりたいことクローリングデータの準備コードウェブのHTMLをパースするコード例コードデータのクローリングコード形態素解析トピックモデルを作るためのベクトル作成やりたいこと特定のまとまりのWebページを集めて、トピック（共通に出てくる…

2016-10-23

pythonでdenoising auto encoderを使ってデータを前処理する

python データ解析機械学習深層学習前処理自然言語処理

概要モデル定義ノイズ付加デノイジングオートエンコーダーの訓練損失関数の推移概要まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…

2016-10-22

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

python コード前処理データ解析可視化

やることコードクラスタリングプロットするためのデータ準備グラフ作成結果やることデータをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。今回は教師データ = 0, 1 の２クラスを想定。可視化をするためのデータは主…

2016-10-22

pythonでAutoencoderを動かす

python 機械学習深層学習前処理コード

環境モデルの定義出力モデルの訓練誤差の減少具合オートエンコーダーのモデルを複雑に二つのモデルの比較参考環境 python2.7, ubuntu14.04上。Kerasを使用して、入力はベクトルを想定。モデルの定義 print(autoencoder.summary())とすればモデルに…

2016-10-21

pythonで相関係数を可視化する

データ解析前処理コード python 可視化

問題設定ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

2016-10-19

pythonで母集団の分布を確認する

python python コード前処理

各特徴の分布を確認目的値ごとに分布に違いがあるのかを確認する 2変数間の関係を見る等高線をプロットして分布を確認する前提として、2クラス分類。データに含まれる特徴量は data_train.columns.values >> array(['feature1', 'feature2', 'feature3',…