ゆるふわめも

東京か京都にいます。

つぶやきの言語判定についての資料

twitterのニュースで気になったがサイボウズのShuyo Nakataniさんの資料があったのでメモ。

韓国語を勉強したことがないので厳密にはわからないけれど、句読点とスペースの間隔だけでアジア圏は分離できると考え中。「、。 」などとその出現間隔+よく使われる文字など。韓国語はスペースの間隔で分離できると思う。厳密に99.9%以上を目指すとなるとさらに工夫が必要?

www.slideshare.net

www.slideshare.net