できたもの

こちらのページです.

f:id:misos:20170509034833p:plain

Amazonの画像から自動的に色を抽出するようにしました. アニメキャラの色に基づいてパワーポイントやキーノートのテーマを作る時にだけ使えるかもしれません.

追記：クリップスタジオで読み込める形式のファイルを出力するようにしました

実装内容

Amazonの画像からRGBデータを取得、12クラスにクラスタリング、クラスタリングのまとまりをデータ数とクラスタごとの平均色の類似度(つまり、クラスタのセントロイドの距離)に基づいて重み付け、最後に重みが大きい上位8クラスを選んで表示しています.

f:id:misos:20170509035243p:plain

初音ミクのリボンの色など、小さいけれどもキャラを表している色を抽出するのに失敗してしまいます. そのため, 色の類似度を計算して類似度が離れているほど重要度を増やすような処理を加えて抽出します.

初音ミクの場合は「青色っぽい色ばかり抽出される」→「データ数は少ないけれど赤色もワンポイントになってそう」としています, 失敗していますが...。今後の課題. k-means minus minus を使って外れ値っぽいものをワンポイントの色として抽出してみた方がよかったかもしれません.

f:id:misos:20170509035715p:plain

文字と背景の組み合わせチェックも見れるようにしました. 需要なさそうですが, スライドなどを作る時に個人的に使いたいので作りました.

有名な論文ですが

Pelleg, Dan, and Andrew W. Moore. "X-means: Extending K-means with Efficient Estimation of the Number of Clusters." ICML. Vol. 1. 2000.

にて提案された X-means 法にてクラスタ数を自動で決定するように変更したい. ベイズ情報量規準で分割を止める最適なクラスタ数を求める手法.

今回は適当に (R, G, B) の値の絶対距離を用いて色の離れ具合を計算しているのでちゃんとした距離を定義して抽出をうまくいくようにしたい.

クラスタリングと言っても問題設定なども含めて様々なバリエーションが思いつく.

日本語記事がありませんが仕組みはHierarchical clustering - Wikipedia の通りです.

一番よく知られる手法である k-means が代表的. 任意のデータ間の類似度計算ができないと動かないk-meansを改良したのがk-medoids.

K-means
- 各クラスタの平均ベクトルとの距離の二乗を最小化
K-medoids
- medoidとデータの距離の和を最小化
K-means++(k-means plus plus)
- K-meansの初期値の決め方を改善, 初期のk個のクラスタ中心がなるべく離れるような選択を, データ間距離に基づいた確率分布に基づいて行う.
K-means--(k-means minus minus)
- k このクラスタと L この外れ値クラスタを分ける最適化問題を定義して, 外れ値に大きく結果が左右される点を改善
X-means
- ベイズ情報量規準に基づいてクラスタの分割停止タイミングを決定する
G-means
- データがガウス分布に基づいて生成されると仮定して, 各クラスタがガウス分布に基づいて生成されるかをアンダーソン–ダーリング検定で確かめがらクラスタを作る?
GX-means
- 上記二つの拡張
S-means
- データが混合ガウス分布から生成されていると仮定しない. しかし初期値として定める閾値によって結果が大きく変化する.

DBCLASD
- Xu, Xiaowei, et al. "A distribution-based clustering algorithm for mining in large spatial databases." Data Engineering, 1998. Proceedings., 14th International Conference on. IEEE, 1998.
DENCLUE
- カーネル密度推定を元にしたクラスタリング手法

[1] Chawla, Sanjay, and Aristides Gionis. "k-means–: A unified approach to clustering and outlier detection." Proceedings of the 2013 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2013.
金森敬文, 統計的学習理論 (機械学習プロフェッショナルシリーズ), 2016
Jain, Anil K. "Data clustering: 50 years beyond K-means." Pattern recognition letters 31.8 (2010): 651-666.
Murtagh, Fionn, and Pedro Contreras. "Algorithms for hierarchical clustering: an overview." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2.1 (2012): 86-97.
Hancer, Emrah, and Dervis Karaboga. "A comprehensive survey of traditional, merge-split and evolutionary approaches proposed for determination of cluster number." Swarm and Evolutionary Computation 32 (2017): 49-67.