書きかけです.

元論文

Bousmalis, Konstantinos, et al. "Domain separation networks." Advances in Neural Information Processing Systems. 2016.

Domain Adaption

新規タスクの効果的な仮説を効率的に見つけ出すために，一つ以上の別のタスクで学習された知識を得て，それを適用する問題

幾つかのドメインが少しずつ違うデータセットがある中で、

全てに正解ラベルをつけてモデルを訓練するのはコストがかかる。

ラベル付きの一部のドメインのデータセットで得たドメインに関係ない特徴量を用いてモデルの性能を上げる、それが Domain Adaptation のイメージだと思う。ラベル付きのデータセットを毎回大量に用意するのは大変だから、既存のデータセット（だけどもドメインが違っている）を用いてモデルの性能をできるだけ向上させたい！というモチベーションはよくある問題。

本論文

Bousmalis, Konstantinos, et al. "Domain separation networks." Advances in Neural Information Processing Systems. 2016.

Domain Separation Networks (DSN)

概要

ソース：すでにあるラベル付きデータセットを取得したドメイン
ターゲット：これから新しく取り組むデータがあるドメイン

基本的な流れはソースとターゲット両ドメインに共通する特徴量を抽出して、抽出した特徴量から予測を行う、既存研究と同じ流れになる。

本研究では、ドメイン固有の特徴量と共通する特徴量を抽出するためのオートエンコーダと損失関数を定義する。オートエンコーダを用いて抽出したソースとターゲットの特徴量からドメイン固有・ドメイン共通の特徴量を抽出するには、”soft orthogonality constraint"(論文中のL_difference)などを用いる。

取り組む問題

ソースのラベル付きデータでモデルを訓練して、ターゲットのラベルのついてないデータにラベルをつける。評価指標はラベルのMean classification accuracy.

モデルの学習

f:id:misos:20170219053811p:plain

α〜γはハイパーパラメータでこの四種類の損失関数を最小化することでモデルを学習する。

L Task

取り組む問題に依存した損失関数。Negative-log-likelihood, Mean-square-errorなど。

L Recon(struction)

ドメイン共通の特徴量から再び元の入力データをデコード(再構築)するモデルにおける損失。再構築したベクトルが元のデータと離れているほど大きくなる。この再構築したベクトルと元のベクトルとの離れ具合はScale-Invariant Mean Squared Error(SI_MSE)[2]を用いる。

L Difference

オートエンコーダで作成した特徴ベクトルが各行にある行列をソースとターゲットの両方で作成する。この二つの行列が直交に近づくほど小さくなる損失関数。

L Similarity

ドメイン共通の特徴量を抽出するためのオートエンコーダの損失。ソースからオートエンコーダを用いて作成した特徴とターゲットから同様に作成した特徴が近いほど小さくなる。つまり、抽出した特徴がソースとターゲットのどちらから来たかがわからなくなるほど損失が小さくなる、はず。

参考文献

[1] Bousmalis, Konstantinos, et al. "Domain separation networks." Advances in Neural Information Processing Systems. 2016.

[2] Eigen, David, Christian Puhrsch, and Rob Fergus. "Depth map prediction from a single image using a multi-scale deep network." Advances in neural information processing systems. 2014.