読者です 読者をやめる 読者になる 読者になる

ゆるふわめも

in Kyoto or Tokyo

コード

時系列データ解析のメモ+pythonで株価の取得

時系列データとは よく出る確率分布・密度関数 ポアソン分布 goodness of fit test pythonにて株価を取得 pandas_datareaderのインストール データの取得 データのプロット 対数収益率の計算 統計量の計算・分析 平均・分散・相関 ヒストリカルボラティリテ…

バンディットアルゴリズムの復習6:トンプソン抽出(ThompsonSampling)

概要 コード ログ出力 アームが保持する変数 アーム選択部分 なぜか日本語の記事があまりない。 概要 以前ソフトマックス法を 実行した時、期待値最大が見込めるアームは指数分布に基づいて決定していた。 このアームkの期待値E_kがアームごとに何らかの事前…

pythonのloggingの詳細設定を行う

利用するたびに設定を指定する .confにロギングの設定を指定する 詳細 データ解析のステップが大きくなってくるとログファイルを出力しないとどこにエラーがが入ったかやバグのチェックが大変になってくるのでメモ。 利用するたびに設定を指定する 一瞬使い…

pythonで決定木の出力と決定境界の可視化

参考文献 dotのインストール 決定境界の可視化 データの生成 決定境界の可視化 決定木の出力 決定木のデータファイルを出力 出力画像 おまけ:非線形データの場合 データ生成 決定境界の可視化 決定木の可視化 参考文献 Python Data Science Handbook: Essen…

pythonで線形+多項式フィッティング

データの生成 コード グラフ上にプロット フィッテング 過学習のテンプレとして出てくる。 データの生成 コード 予測する曲線のデータと、それにノイズを乗せたデータを生成します。 import matplotlib.pyplot as plt import seaborn import numpy as np def…

python matplotlib 内で日本語を利用する(日本語のラベルや凡例・legendをつける)

matplotlibで使用できるフォントを探す 指定したフォントをmatplotlib全体で使用できるように指定する コード 表示例 matplotlib.rcを使ったフォントの変更 コード 表示例 matplotlibで使用できるフォントを探す 指定したフォントをmatplotlib全体で使用でき…

python matplotlib 内で日本語を利用する(使用できるフォントを探す)

利用できるフォントを探す コード 出力 matplotlibで使用 日本語でラベルや凡例を表示する 利用できるフォントを探す コード import matplotlib.font_manager as fm # フォント一覧 fonts = fm.findSystemFonts() # フォントのパスと名前を取得、とりあえず1…

pythonでpandasのgroupbyで集約+散布図(scatter)を作成

やること コード データ作成 集計 + 上位の丸め込み コード全体 出力 やること 変数が三つある時によくやるのでメモ。 データで例えると「映画の視聴回数」「変数A」「変数B」で回数ごとに A, Bの変数に変化があるかを調べたい時にとりあえず見てみる。 大抵…

pythonでウェブサイトをクロールしてページの説明を収集する

やること コード 集めたテキストを形態素解析する やること ページの文章からトピックモデルを作って、ウェブの移動履歴や購入履歴からユーザの特徴ベクトルを作りたい。 その初めの一歩として、とりあえず url の一覧からページの説明を取得してcsvに保存し…

pythonでpd.DataFrameのカラム名一覧を取得+単純集計

やりたいこと コード 出力 他の例 やりたいこと 全特徴のヒストグラムを作成する。 data.columns.valuesで DataFrameのカラム一覧を取得する。 コード data = pd.read_csv(filename) names = data.columns.values N, M = 5, 5 plt.figure(figsize=(N*2, M*2)…

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…

pythonでAutoencoderの精度をバッチサイズを変更しながら確認

コード モデル定義 モデルの訓練 バッチサイズを狭めながらオートエンコーダを訓練して、その損失関数の減少具合を確認する。 緑色線がエポックごとのおおよその損失関数のlossの値、赤色がバッチごとのlossの値を全てプロットしたものです。 コード モデル…

pythonでAutoencoderを動かす

環境 モデルの定義 出力 モデルの訓練 誤差の減少具合 オートエンコーダーのモデルを複雑に 二つのモデルの比較 参考 環境 python2.7, ubuntu14.04上。Kerasを使用して、入力はベクトルを想定。 モデルの定義 print(autoencoder.summary())とすればモデルに…

xgboostのパラメータをグリッドサーチで決定する

モデルの詳細 コード 参考スライド モデルの詳細 Python API Reference — xgboost 0.6 documentation にあるパラメータのうち、特に影響が大きい物をグリッドサーチで決定します。xgboostの本論文はKDD2016の以下を参照。最近のコンペでは協力なベースライン…

pythonで相関係数を可視化する

問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

pythonで母集団の分布を確認する

各特徴の分布を確認 目的値ごとに分布に違いがあるのかを確認する 2変数間の関係を見る 等高線をプロットして分布を確認する 前提として、2クラス分類。 データに含まれる特徴量は data_train.columns.values >> array(['feature1', 'feature2', 'feature3',…

Deeplearningで誤差を確認しながら分類問題を解かせる

やること 各ステップ詳細 データをロード、多項式特徴量を追加 モデルを定義 コスト関数の減少具合をプロット 定義したモデルの訓練 ループごとに精度改善を確かめながらバッチサイズを減らす コード やること 単純な分類問題。誤差の減り具合をプロットして…

pythonで指定したウェブページのタイトルと説明を取得

やりたいこと https://news.google.co.jp/news と入力したら 「google」について、Googleニュースが世界中のニュース提供元から集約した広範囲にわたる最新情報と出力したい。 やり方 import urllib2, time from BeautifulSoup import BeautifulSoup urls = …

pythonでstacked LSTMを使った分類問題を解く

やりたいこと qiita.com にあるようなモデルを作成して分類問題を解く。 What is the difference between stacked LSTM's and multidimensional LSTM's? - Quora を参考にしつつ(してない...?)モデルを作成。 Wen, Tsung-Hsien, et al. "Semantically cond…

pythonで2次元のConvolutionalNeuralNetwork(畳み込みニューラルネット)

内容 python+kerasを使って、MNISTのような白黒画像を分類するCNNを構築。 パラメータを変更すればカラー画像なども対応可能、のはず。 コード # keras import numpy import pandas from keras.models import Sequential from keras.layers import Dense, Dr…

pythonのリストやカラムに含まれるユニークな値一覧を取得する

やりたいこと [a, b, b, c, d, d] -> [a, b, c, d] 解決法 # list の場合 data = [a, b, b, c, d, d] unique_list = list(set(data)) >> unique_list : [a, b, c, d] # DataFrameの場合 data = pd.DataFrame(data) data.unique() >> np.array([a, b, c, d])

LSTMで分類問題を解く(Python)

内容 Kerasを使ってLSTMを実装。 コードのEmbeddingの都合上 tensorflow.__version = 0.10.0で行う必要があるので注意(今日現在)。 コード import numpy as np import pandas as pd import random from keras.models import Sequential from keras.layers im…

LSTMで回帰問題を解く(Python)

内容 コード 出力 内容 Kerasを使ってLSTMを実装。 コードのEmbeddingの都合上 tensorflow.__version = 0.10.0で行う必要があるので注意(今日現在)。 コード import numpy as np import pandas as pd import random from keras.models import Sequential fro…