自分用のメモです。書きかけです。
ライブラリ
クローリング・スクレイピング
- Scrapy
- BeautifulSoup
- Mechanize
- PyQuery
たくさんの解説記事があるのでリンク省略。法律周りも調べつつ行いたい。
形態素解析
Python
Python以外でも使えますが、利用頻度が高いので。
JUMANを利用するには以下よりpyKNPをインストールする必要があります。
PyKNP - KUROHASHI-KAWAHARA LAB
javascript
その他
画像処理
tesseract
使用する際にはleptonicaのインストールも必要(v1.7.2以上)。さらに、以下から日本語用データ(jpn~のファイル)をダウンロードする。
ダウンロードしたファイルはTESSDATA_PREFIX
で指定したフォルダに置く。
export TESSDATA_PREFIX="/usr/local/share/tessdata/tessdata/"
とした場合は /usr/local/share/tessdata/tessdata/
以下へ。
pyocr
tesseract のpython ラッパー。python3系ならば sudo pip3 install pyocr
でインストール。基本的な使い方は上記サイトにあり。
その他
- TinySegmenter
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
分かち書きを行う。javascriptで非常に軽いがデータベースを用いないためちゃんとした文でないと失敗しがち。
勉強会
API
実装
pytorch
tensorflow
上記は tensorflow-cookbookより。
- 作者: Nick McClure
- 出版社/メーカー: Packt Publishing
- 発売日: 2018/09/11
- メディア: Kindle版
- この商品を含むブログを見る