ゆるふわめも

東京か京都にいます。

データ解析

論文メモ:Learning Hidden Features for Contextual Bandits

元論文 まとめると 背景 Contextual Bandit 既存手法の問題点 Latent Factor Model 座標降下(Coordinate Descent)法 問題設定 アルゴリズム 実験 ベースライン 実験結果 課題 バンディット系のメモです。かなり適当です、すいません。 元論文 Learning Hidde…

時系列データ解析のメモ+pythonで株価の取得

時系列データとは よく出る確率分布・密度関数 ポアソン分布 goodness of fit test pythonにて株価を取得 pandas_datareaderのインストール データの取得 データのプロット 対数収益率の計算 統計量の計算・分析 平均・分散・相関 ヒストリカルボラティリテ…

pythonでgensimを使ってトピックモデル(LDA)を行う

LDA用のデータの作成 単語の辞書を作成して出力 外部に保存したコーパスと辞書の読み込み LDAの実行 コード 出力例 gensimとjanomeを用いたLDAを行います。 必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…

pythonでpandasのgroupbyで集約+散布図(scatter)を作成

やること コード データ作成 集計 + 上位の丸め込み コード全体 出力 やること 変数が三つある時によくやるのでメモ。 データで例えると「映画の視聴回数」「変数A」「変数B」で回数ごとに A, Bの変数に変化があるかを調べたい時にとりあえず見てみる。 大抵…

pythonでウェブサイトをクロールしてページの説明を収集する

やること コード 集めたテキストを形態素解析する やること ページの文章からトピックモデルを作って、ウェブの移動履歴や購入履歴からユーザの特徴ベクトルを作りたい。 その初めの一歩として、とりあえず url の一覧からページの説明を取得してcsvに保存し…

pythonでdenoising auto encoderを使ってデータを前処理する

概要 モデル定義 ノイズ付加 デノイジングオートエンコーダーの訓練 損失関数の推移 概要 まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…

pythonでpd.DataFrameのカラム名一覧を取得+単純集計

やりたいこと コード 出力 他の例 やりたいこと 全特徴のヒストグラムを作成する。 data.columns.valuesで DataFrameのカラム一覧を取得する。 コード data = pd.read_csv(filename) names = data.columns.values N, M = 5, 5 plt.figure(figsize=(N*2, M*2)…

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…

pythonで相関係数を可視化する

問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

pythonでクラスごとの分布をPCAで可視化して問題の難しさを確かめる

やりたいこと データを二次元で可視化 データを三次元で可視化 やりたいこと 主成分分析を行い、データを低次元に表す。 その分布をクラスごとに可視化して、クラスごとに分布が違っている(分布が重なっていない)なら予測が簡単そうだ、とわかるしPCAを教…

Kaggleフォーラムでの良記事+notebookのまとめメモ

European Soccer Database Bosch Production Line Performance Melbourne University AES/MathWorks/NIH Seizure Prediction コンペティションなどへのリンクは以下にメモしておく予定です。 paper.hatenadiary.jp European Soccer Database The Most Predic…

データ解析系のリンク集

コンペティション よく読むブログ・記事 データリソース 論文 その他 Kaggleフォーラム良記事については以下にメモしておく予定です。 paper.hatenadiary.jp コンペティション Kaggle: Your Home for Data Science Data Science Game Two Roads Tech | Data …