pandasのDataFrameの連結、内部結合、外部結合のサンプル

python メモリンク集

データフレーム結合の使用例 Grouobyとそれに対する操作(フィルタなど) データ選択の方法(ix, queryなど) リンクのみです。 Qiita等の例の内の多くはpandasのドキュメントに載っている気がします。いちいち検索せずにドキュメントを読む癖をつけたい。特によ…

2017-01-03

python, pandas.DataFrameにてapply内部のlambda式でtry, exceptを行う

python エラー解決

コード try and catch部分変換部分最後に結論から言うとできないそうです。もっとも利用するのは DataFrame形式にapplyを使ってデータを変換する時だと思います、自分だけかもしれないですが。コードとっさに作った例ですが、データに含まれる文字列の…

2017-01-01

pythonで乱数を生成・特定の分布から乱数を生成する

python メモ

ドキュメント必要なライブラリをインポート分布から乱数を生成一様分布 np.random.rand random.random ガンマ分布ガウス分布ワイブル分布混合ガウス分布カーネル密度推定した分布のプロットアイテムを選択アイテムごとの重みに基づいて選択アイテ…

2016-12-14

ubuntuにanacondaをインストール、仮想環境の作成、削除

python メモ開発環境

インストール仮想環境の名前一覧を見る環境を作る仮想環境に入る仮装環境から出る仮想環境の削除 conda-forge 本家のドキュメントメモのみ。Ubuntu 14.04とMac OS Xで行っています。本家からダウンロードしてインストールするだけです。インストール…

2016-12-14

バンディットアルゴリズムの復習６：トンプソン抽出(ThompsonSampling)

python コードバンディット

概要コードログ出力アームが保持する変数アーム選択部分なぜか日本語の記事があまりない。概要以前ソフトマックス法を実行した時、期待値最大が見込めるアームは指数分布に基づいて決定していた。このアームkの期待値E_kがアームごとに何らかの事前…

2016-12-11

pythonのloggingの詳細設定を行う

python コードエラー解決

利用するたびに設定を指定する .confにロギングの設定を指定する詳細データ解析のステップが大きくなってくるとログファイルを出力しないとどこにエラーがが入ったかやバグのチェックが大変になってくるのでメモ。利用するたびに設定を指定する一瞬使い…

2016-12-05

バンディットアルゴリズムの復習４：Contextual Bandit

python 機械学習バンディット書きかけ

前回 Contextual Bandit スライド説明各アルゴリズム外観 EXP4 Epoch-Greedy LinUCB Thompson sampling for Contextual Bandits HyperTS・HyperTSFB 次回書きかけ、後ほど各アルゴリズムの説明や実験など追加予定。 →水曜夜あたり→土日あたり前回 UCB,そ…

2016-12-04

バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound)

python 機械学習バンディット

前回 UCB(Upper Confidence Bound) UCBの説明理論的な説明 UCBのアルゴリズムアームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布実験 Arm0: ベルヌーイ Arm1: 適当に作った分布次回参考文献前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confi…

2016-12-04

バンディットアルゴリズムの復習２：softmax

python 機械学習バンディット

前回 Softmax Softmaxによるアーム選択 Boltzmann分布(Gibbs 分布) Softmaxのコードアーム選択部分実験アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布実験結果 Arm0: ベルヌーイの場合 Arm1: 適当に作った分布の場合次回:UCB 参考文献前回 ε-G…

2016-12-04

バンディットアルゴリズムの復習１：epsilon-Greedy

python 機械学習バンディット

A/B テスト epsilon-Greedy アルゴリズム説明 epsilon-Greedy アルゴリズムコード実験(ベルヌーイ分布のアーム) アームの定義実行結果実験(ペナルティが大きいアームがあるケース) アームの定義実験結果実験(アームの分布が時間によって変化する場合) …

2016-11-12

pythonで決定木の出力と決定境界の可視化

python コード可視化機械学習

参考文献 dotのインストール決定境界の可視化データの生成決定境界の可視化決定木の出力決定木のデータファイルを出力出力画像おまけ：非線形データの場合データ生成決定境界の可視化決定木の可視化参考文献 Python Data Science Handbook: Essen…

2016-11-12

pythonで線形＋多項式フィッティング

python 可視化コード

データの生成コードグラフ上にプロットフィッテング過学習のテンプレとして出てくる。データの生成コード予測する曲線のデータと、それにノイズを乗せたデータを生成します。 import matplotlib.pyplot as plt import seaborn import numpy as np def…

2016-11-08

python matplotlib 内で日本語を利用する(日本語のラベルや凡例・legendをつける)

コードメモ python 可視化

IPAのゴシックフォントで良い場合フォントを指定したい場合 matplotlibで使用できるフォントを探す指定したフォントをmatplotlib全体で使用できるように指定するコード表示例 matplotlib.rcを使ったフォントの変更コード表示例 IPAのゴシックフォント…

2016-11-06

python matplotlib 内で日本語を利用する(使用できるフォントを探す)

コードメモ python 可視化

利用できるフォントを探すコード出力 matplotlibで使用日本語でラベルや凡例を表示する利用できるフォントを探すコード import matplotlib.font_manager をインポートして findSystemFonts()でフォント一覧を取得します. gist.github.com 出力わかりや…

2016-11-06

pythonでgensimを使ってトピックモデル(LDA)を行う

自然言語処理 python データ解析前処理機械学習

LDA用のデータの作成単語の辞書を作成して出力外部に保存したコーパスと辞書の読み込み LDAの実行コード出力例 gensimとjanomeを用いたLDAを行います。必要なデータは一行ごとに文章が入ったtxtファイルです。 LDA用のデータの作成 data.txtには一行ご…

2016-11-06

OCR・文字認識の論文とかのまとめ

python 機械学習深層学習画像処理自然言語処理リンク集論文・資料・スライド集

論文 End-to-End Text Recognition with Convolutional Neural Networks Word Spotting and Recognition with Embedded Attributes Deep structured output learning for unconstrained text recognition Deep Features for Text Spotting Reading Text in t…

2016-10-26

pythonでpandasのgroupbyで集約＋散布図(scatter)を作成

python コードデータ解析可視化

やることコードデータ作成集計 + 上位の丸め込みコード全体出力やること変数が三つある時によくやるのでメモ。データで例えると「映画の視聴回数」「変数A」「変数B」で回数ごとに A, Bの変数に変化があるかを調べたい時にとりあえず見てみる。大抵…

2016-10-24

pandas.DataFrameでcsvファイルを内部結合

メモ python

やりたいことコード他の例よく使うのでメモ。 ID_labelxとID_labelyが同じ行をまとめる内部結合です。やりたいこと X: (ID_labelx, xa, xb) = (tanaka, data_xa, data_xb) Y: (ID_labely, ya, yb) = (tanaka, data_ya, data_yb) のデータが join: (ID_la…

2016-10-23

pythonのpandas.DataFrameで特定文字列だけ含む行を選択

メモ python

大量データのカラム名の仕分けとかでよく使うのでメモ。 # データをロード clm = pd.DataFrame(data) # カラム名を付け替える clm.columns = ['id', ...] # idカラムの中から "tanaka" が含まれる行だけを選択 clm[clm['id'].str.contains("tanaka", na=Fals…

2016-10-23

Mecabに文字列のデータ一覧を渡して単語ごとに分割させる（分かち書き）

自然言語処理 python

やること私は宇宙人です。 -> '私は宇宙人です。' と変換していく。前回クロールしてアドレス一覧からページのテキストを拾ってきて '.csv' に保存したので今回はそれらのテキストを分割して word2vecなどの前処理に入れられる状態で保存する。前回 pa…

2016-10-23

Ubuntu 14.04, Mac OS X に MeCab をインストール

メモ自然言語処理 python

Mac OS X Ubuntu 14.04 すでに以下のような記事があるのですが qiita.com 以下でいけました。 Mac OS X $ brew install mecab $ brew install mecab-ipadic $ pip install mecab-python $ pip install mecab-python3 (python3なら) Ubuntu 14.04 $ sudo apt-…

2016-10-23

pythonでウェブサイトをクロールしてページの説明を収集する

コードデータ解析自然言語処理 python

やることコード集めたテキストを形態素解析するやることページの文章からトピックモデルを作って、ウェブの移動履歴や購入履歴からユーザの特徴ベクトルを作りたい。その初めの一歩として、とりあえず url の一覧からページの説明を取得してcsvに保存し…

2016-10-23

pythonでdenoising auto encoderを使ってデータを前処理する

python データ解析機械学習深層学習前処理自然言語処理

概要モデル定義ノイズ付加デノイジングオートエンコーダーの訓練損失関数の推移概要まず、PFNの得居さんの記事を参照。 www.beam2d.net データにランダムにノイズを乗せたものを入力として、元のデータを正解とするDNNを学習することでデータからノイ…

2016-10-23

pythonでpd.DataFrameのカラム名一覧を取得＋単純集計

コードデータ解析 python

やりたいことコード出力他の例やりたいこと全特徴のヒストグラムを作成する。 data.columns.valuesで DataFrameのカラム一覧を取得する。コード data = pd.read_csv(filename) names = data.columns.values N, M = 5, 5 plt.figure(figsize=(N*2, M*2)…

2016-10-22

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

python コード前処理データ解析可視化

やることコードクラスタリングプロットするためのデータ準備グラフ作成結果やることデータをクラスタリングして、各クラスタごとの教師データの分布の偏りを確かめたい。今回は教師データ = 0, 1 の２クラスを想定。可視化をするためのデータは主…

2016-10-22

pythonでAutoencoderの精度をバッチサイズを変更しながら確認

python 機械学習深層学習コード可視化

コードモデル定義モデルの訓練バッチサイズを狭めながらオートエンコーダを訓練して、その損失関数の減少具合を確認する。緑色線がエポックごとのおおよその損失関数のlossの値、赤色がバッチごとのlossの値を全てプロットしたものです。コードモデル…

2016-10-22

pythonでAutoencoderを動かす

python 機械学習深層学習前処理コード

環境モデルの定義出力モデルの訓練誤差の減少具合オートエンコーダーのモデルを複雑に二つのモデルの比較参考環境 python2.7, ubuntu14.04上。Kerasを使用して、入力はベクトルを想定。モデルの定義 print(autoencoder.summary())とすればモデルに…

2016-10-22

xgboostのパラメータをグリッドサーチで決定する

コード機械学習 python

モデルの詳細コード参考スライドモデルの詳細 Python API Reference — xgboost 0.6 documentation にあるパラメータのうち、特に影響が大きい物をグリッドサーチで決定します。xgboostの本論文はKDD2016の以下を参照。最近のコンペでは協力なベースライン…

2016-10-21

pythonで相関係数を可視化する

データ解析前処理コード python 可視化

問題設定ニクラス問題で教師データのラベルが 1, 0だった時にそのラベルごとに変数の相関を、さらにラベルの違いごとに変数相関に違いがあるかを確認する。コード plt.figure(figsize=(10, 10)) plt.subplot(221) plt.title('alldata corr') sns.heatmap(t…

2016-10-21

pythonで分類問題のハイパーパラメータをグリッドサーチで見つける

機械学習 python

内容が薄いのでコードのみ。 sklearn.__vsrsion__==0.18である必要あり。 from sklearn.pipeline import Pipeline from sklearn.decomposition import PCA, NMF from sklearn.preprocessing import PolynomialFeatures from sklearn.feature_selection impor…

めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

python

pandasのDataFrameの連結、内部結合、外部結合のサンプル

python, pandas.DataFrameにてapply内部のlambda式でtry, exceptを行う

pythonで乱数を生成・特定の分布から乱数を生成する

ubuntuにanacondaをインストール、仮想環境の作成、削除

バンディットアルゴリズムの復習６：トンプソン抽出(ThompsonSampling)

pythonのloggingの詳細設定を行う

バンディットアルゴリズムの復習４：Contextual Bandit

バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound)

バンディットアルゴリズムの復習２：softmax

バンディットアルゴリズムの復習１：epsilon-Greedy

pythonで決定木の出力と決定境界の可視化

pythonで線形＋多項式フィッティング

python matplotlib 内で日本語を利用する(日本語のラベルや凡例・legendをつける)

python matplotlib 内で日本語を利用する(使用できるフォントを探す)

pythonでgensimを使ってトピックモデル(LDA)を行う

OCR・文字認識の論文とかのまとめ

pythonでpandasのgroupbyで集約＋散布図(scatter)を作成

pandas.DataFrameでcsvファイルを内部結合

pythonのpandas.DataFrameで特定文字列だけ含む行を選択

Mecabに文字列のデータ一覧を渡して単語ごとに分割させる（分かち書き）

Ubuntu 14.04, Mac OS X に MeCab をインストール

pythonでウェブサイトをクロールしてページの説明を収集する

pythonでdenoising auto encoderを使ってデータを前処理する

pythonでpd.DataFrameのカラム名一覧を取得＋単純集計

mini-batch k-meansでデータをクラスタリングして教師データの偏りを可視化する

pythonでAutoencoderの精度をバッチサイズを変更しながら確認

pythonでAutoencoderを動かす

xgboostのパラメータをグリッドサーチで決定する

pythonで相関係数を可視化する

pythonで分類問題のハイパーパラメータをグリッドサーチで見つける

プライバシーポリシー