NIPS-16のBest Paper AwardであるTamar, Aviv, Sergey Levine, and Pieter Abbeel. "Value Iteration Networks." arXiv preprint arXiv:1602.02867 (2016).のtensor-flowでの実装が公開されました。
概要
エージェントが決められたマップのスタートとゴールの間から、その最短パスを見つける強化学習にありがちな問題設定...とか書いてたらQiitaの記事を見つけたのでそっちに任せます。
実装
theano
作者さまの実装です。
tensor-flow
chainer
Qiitaを書いた記事の方の実装。