めも

メモ.

日本語でのNLP(自然言語処理)を始めるためのライブラリ・講義資料など

自分用のメモです。書きかけです。

ライブラリ

クローリング・スクレイピング

  • Scrapy
  • BeautifulSoup
  • Mechanize
  • PyQuery

たくさんの解説記事があるのでリンク省略。法律周りも調べつつ行いたい。

形態素解析

Python

Python以外でも使えますが、利用頻度が高いので。

JUMANを利用するには以下よりpyKNPをインストールする必要があります。

PyKNP - KUROHASHI-KAWAHARA LAB

javascript

その他

画像処理

tesseract

使用する際にはleptonicaのインストールも必要(v1.7.2以上)。さらに、以下から日本語用データ(jpn~のファイル)をダウンロードする。

ダウンロードしたファイルはTESSDATA_PREFIXで指定したフォルダに置く。

export TESSDATA_PREFIX="/usr/local/share/tessdata/tessdata/"

とした場合は /usr/local/share/tessdata/tessdata/以下へ。

pyocr

tesseract のpython ラッパー。python3系ならば sudo pip3 install pyocrでインストール。基本的な使い方は上記サイトにあり。

その他

  • TinySegmenter

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

分かち書きを行う。javascriptで非常に軽いがデータベースを用いないためちゃんとした文でないと失敗しがち。

勉強会

API

実装

pytorch

tensorflow

上記は tensorflow-cookbookより。

chainer

講義資料など

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。