めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

機械学習で使うオープンデータセットのまとめページへのリンク

自分用。

まとめ系

ダウンロード可能ではない形式のデータも検索に引っかかるので注意。

https://toolbox.google.com/datasetsearch

NII データリポジトリ

申請必要。主に日本企業で集められた口コミなどの大規模データセット。

情報学研究データリポジトリ データセット一覧

楽天データ公開

こちらも申請必要、楽天のサービス内でのデータセット。

楽天データ公開 | Rakuten Institute of Technology | 楽天技術研究所

arXivTimes/datasets

機械学習を行う際に利用する画像・NLP・イメージキャプションなどの一般的なデータセットへのリンク集。

github.com

Registry of Open Data on AWS

AWS上で利用可能なパブリックデータセット。

Registry of Open Data on AWS

ワールド・データ・アトラス

各国の種々の統計データ。

Kaggle Dataset

kaggle-apiを使って一部ダウンロード可能、kaggleに登録する必要あり。

Datasets | Kaggle

awesome public dataset

データカタログサイト(Data Go JP)

データカタログサイトは、内閣官房情報通信技術(IT)総合戦略室による企画・立案の下、総務省行政管理局が運用するオープンデータに係る情報ポータルサイトです。

各種統計データやpdf資料も混在しているのと、メタデータからファイルに含まれるデータがわからない場合が多いので注意。

オープンデータに関する各種資料は以下のサイトにて掲載している。

オープンデータ | 政府CIOポータル

e-Stat

e-Statは、日本の統計が閲覧できる政府統計ポータルサイトです

小規模な集計データが中心。

政府統計の総合窓口

UC Irvine Machine Learning Repository

irisデータセットなど有名。

UCI Machine Learning Repository

金融関係

ADVFN

GAIN Capital

GAIN Capital Rate Data Archive

Synthetic Financial Datasets For Fraud Detection

前処理大全[データ分析のためのSQL/R/Python実践テクニック]

前処理大全[データ分析のためのSQL/R/Python実践テクニック]

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。