データ解析
この記事は何 全般 データ型・データ数・カラム名を取得する 欠損の有無を確認する 列に含まれる値に指定した式を適用する オブジェクト型となっているカラムのデータを変換する 指定した行・列のデータを抽出する マークダウン・Latex形式で出力する 特定デ…
概要 以下の本を読みつつ、調べた内容のメモです。 参照したページのリンクは適宜間に挟みます。 冒頭〜AR過程の手前まで。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)作者:竜義, 沖本発売日: 2010/02/01メディア: 単行本 第一章:基礎概…
定義 予測モデル ハイパーパラメータ 予測パイプライン 最適化のためのアルゴリズム 最適なアルゴリズム(予測モデル)の選択 最適なハイパーパラメータの選択 Hyperband 最適なパイプラインの選択 SMAC(Sequential Modelbased Algorithm Configuration) TPE(T…
元論文 まとめると 背景 Contextual Bandit 既存手法の問題点 Latent Factor Model 座標降下(Coordinate Descent)法 問題設定 アルゴリズム 実験 ベースライン 実験結果 課題 バンディット系のメモです。かなり適当です、すいません。 元論文 Learning Hidde…
時系列データとは よく出る確率分布・密度関数 ポアソン分布 goodness of fit test pythonにて株価を取得 pandas_datareaderのインストール データの取得 データのプロット 対数収益率の計算 統計量の計算・分析 平均・分散・相関 ヒストリカルボラティリテ…
LDA用のデータの作成 単語の辞書を作成して出力 外部に保存したコーパスと辞書の読み込み LDAの実行 コード 出力例 gensimとjanomeを用いたLDAを行います。 必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…
やること コード データ作成 集計 + 上位の丸め込み コード全体 出力 やること 変数が三つある時によくやるのでメモ。 データで例えると「映画の視聴回数」「変数A」「変数B」で回数ごとに A, Bの変数に変化があるかを調べたい時にとりあえず見てみる。 大抵…
やること コード 集めたテキストを形態素解析する やること ページの文章からトピックモデルを作って、ウェブの移動履歴や購入履歴からユーザの特徴ベクトルを作りたい。 その初めの一歩として、とりあえず url の一覧からページの説明を取得してcsvに保存し…
概要 モデル定義 ノイズ付加 デノイジングオートエンコーダーの訓練 損失関数の推移 概要 まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…
やりたいこと コード 出力 他の例 やりたいこと 全特徴のヒストグラムを作成する。 data.columns.valuesで DataFrameのカラム一覧を取得する。 コード data = pd.read_csv(filename) names = data.columns.values N, M = 5, 5 plt.figure(figsize=(N*2, M*2)…
やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…
問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…
やりたいこと データを二次元で可視化 データを三次元で可視化 やりたいこと 主成分分析を行い、データを低次元に表す。 その分布をクラスごとに可視化して、クラスごとに分布が違っている(分布が重なっていない)なら予測が簡単そうだ、とわかるしPCAを教…
European Soccer Database Bosch Production Line Performance Melbourne University AES/MathWorks/NIH Seizure Prediction コンペティションなどへのリンクは以下にメモしておく予定です。 paper.hatenadiary.jp European Soccer Database The Most Predic…
コンペティション よく読むブログ・記事 データリソース 論文 その他 Kaggleフォーラム良記事については以下にメモしておく予定です。 paper.hatenadiary.jp コンペティション Kaggle: Your Home for Data Science Data Science Game Two Roads Tech | Data …