めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

データ解析

pandas.DataFrameの特定の列に対する操作の確認

この記事は何 全般 データ型・データ数・カラム名を取得する 欠損の有無を確認する 列に含まれる値に指定した式を適用する オブジェクト型となっているカラムのデータを変換する 指定した行・列のデータを抽出する マークダウン・Latex形式で出力する 特定デ…

経済・ファイナンスデータの計量時系列分析のメモ(1)

概要 以下の本を読みつつ、調べた内容のメモです。 参照したページのリンクは適宜間に挟みます。 冒頭〜AR過程の手前まで。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)作者:竜義, 沖本発売日: 2010/02/01メディア: 単行本 第一章:基礎概…

予測モデルのハイパーパラメータチューニング・自動構築に関するめも

定義 予測モデル ハイパーパラメータ 予測パイプライン 最適化のためのアルゴリズム 最適なアルゴリズム(予測モデル)の選択 最適なハイパーパラメータの選択 Hyperband 最適なパイプラインの選択 SMAC(Sequential Modelbased Algorithm Configuration) TPE(T…

論文メモ:Learning Hidden Features for Contextual Bandits

元論文 まとめると 背景 Contextual Bandit 既存手法の問題点 Latent Factor Model 座標降下(Coordinate Descent)法 問題設定 アルゴリズム 実験 ベースライン 実験結果 課題 バンディット系のメモです。かなり適当です、すいません。 元論文 Learning Hidde…

時系列データ解析のメモ+pythonで株価の取得

時系列データとは よく出る確率分布・密度関数 ポアソン分布 goodness of fit test pythonにて株価を取得 pandas_datareaderのインストール データの取得 データのプロット 対数収益率の計算 統計量の計算・分析 平均・分散・相関 ヒストリカルボラティリテ…

pythonでgensimを使ってトピックモデル(LDA)を行う

LDA用のデータの作成 単語の辞書を作成して出力 外部に保存したコーパスと辞書の読み込み LDAの実行 コード 出力例 gensimとjanomeを用いたLDAを行います。 必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…

pythonでpandasのgroupbyで集約+散布図(scatter)を作成

やること コード データ作成 集計 + 上位の丸め込み コード全体 出力 やること 変数が三つある時によくやるのでメモ。 データで例えると「映画の視聴回数」「変数A」「変数B」で回数ごとに A, Bの変数に変化があるかを調べたい時にとりあえず見てみる。 大抵…

pythonでウェブサイトをクロールしてページの説明を収集する

やること コード 集めたテキストを形態素解析する やること ページの文章からトピックモデルを作って、ウェブの移動履歴や購入履歴からユーザの特徴ベクトルを作りたい。 その初めの一歩として、とりあえず url の一覧からページの説明を取得してcsvに保存し…

pythonでdenoising auto encoderを使ってデータを前処理する

概要 モデル定義 ノイズ付加 デノイジングオートエンコーダーの訓練 損失関数の推移 概要 まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…

pythonでpd.DataFrameのカラム名一覧を取得+単純集計

やりたいこと コード 出力 他の例 やりたいこと 全特徴のヒストグラムを作成する。 data.columns.valuesで DataFrameのカラム一覧を取得する。 コード data = pd.read_csv(filename) names = data.columns.values N, M = 5, 5 plt.figure(figsize=(N*2, M*2)…

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

やること コード クラスタリング プロットするためのデータ準備 グラフ作成 結果 やること データをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。 今回は 教師データ = 0, 1 の2クラスを想定。 可視化をするためのデータは 主…

pythonで相関係数を可視化する

問題設定 ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。 コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

pythonでクラスごとの分布をPCAで可視化して問題の難しさを確かめる

やりたいこと データを二次元で可視化 データを三次元で可視化 やりたいこと 主成分分析を行い、データを低次元に表す。 その分布をクラスごとに可視化して、クラスごとに分布が違っている(分布が重なっていない)なら予測が簡単そうだ、とわかるしPCAを教…

Kaggleフォーラムでの良記事+notebookのまとめメモ

European Soccer Database Bosch Production Line Performance Melbourne University AES/MathWorks/NIH Seizure Prediction コンペティションなどへのリンクは以下にメモしておく予定です。 paper.hatenadiary.jp European Soccer Database The Most Predic…

データ解析系のリンク集

コンペティション よく読むブログ・記事 データリソース 論文 その他 Kaggleフォーラム良記事については以下にメモしておく予定です。 paper.hatenadiary.jp コンペティション Kaggle: Your Home for Data Science Data Science Game Two Roads Tech | Data …

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。