自分用。
まとめ系
Google Dataset Search
ダウンロード可能ではない形式のデータも検索に引っかかるので注意。
https://toolbox.google.com/datasetsearch
NII データリポジトリ
申請必要。主に日本企業で集められた口コミなどの大規模データセット。
楽天データ公開
こちらも申請必要、楽天のサービス内でのデータセット。
楽天データ公開 | Rakuten Institute of Technology | 楽天技術研究所
arXivTimes/datasets
機械学習を行う際に利用する画像・NLP・イメージキャプションなどの一般的なデータセットへのリンク集。
Registry of Open Data on AWS
AWS上で利用可能なパブリックデータセット。
ワールド・データ・アトラス
各国の種々の統計データ。
Kaggle Dataset
kaggle-api
を使って一部ダウンロード可能、kaggleに登録する必要あり。
awesome public dataset
データカタログサイト(Data Go JP)
データカタログサイトは、内閣官房情報通信技術(IT)総合戦略室による企画・立案の下、総務省行政管理局が運用するオープンデータに係る情報ポータルサイトです。
各種統計データやpdf資料も混在しているのと、メタデータからファイルに含まれるデータがわからない場合が多いので注意。
オープンデータに関する各種資料は以下のサイトにて掲載している。
e-Stat
e-Statは、日本の統計が閲覧できる政府統計ポータルサイトです
小規模な集計データが中心。
UC Irvine Machine Learning Repository
irisデータセットなど有名。
UCI Machine Learning Repository
金融関係
ADVFN
GAIN Capital
GAIN Capital Rate Data Archive
Synthetic Financial Datasets For Fraud Detection
![前処理大全[データ分析のためのSQL/R/Python実践テクニック] 前処理大全[データ分析のためのSQL/R/Python実践テクニック]](https://images-fe.ssl-images-amazon.com/images/I/61D0XQc0fwL._SL160_.jpg)
前処理大全[データ分析のためのSQL/R/Python実践テクニック]
- 作者: 本橋智光
- 出版社/メーカー: 技術評論社
- 発売日: 2018/04/13
- メディア: 大型本
- この商品を含むブログ (1件) を見る