Welcome to janome’s documentation! — Janome v0.2 documentation
の Janomeを使用。MecabをUbuntu で使用するときは文字コードあたりがめんどくさかった記憶があるので(使ったことはあったけど)パス。
janome のインストール
Ubuntu 14.04 、python3の環境で
$ pip install janome
で完了!
形態素解析
from janome.tokenizer import Tokenizer from gensim import corpora, matutils from gensim import corpora t = Tokenizer() data = list(pd.read_csv('Crawl_data/ALL_text_ニュース.csv')['text'].values)
data の中身は 新規登録(無料)!無料ではじめる!初めての方はこちらから。...
のリストになってます。
名詞と動詞のみ抽出
tokendata
に文を切り抜いて形態素解析した結果が入っています。
all_dictionary_norm, all_dictionary_verb = [], [] for i in range(len(data)): dictionary_norm, dictionary_verb = [], [] try: tokendata = t.tokenize(data[i]) except: continue for token in tokendata: base, part = token.base_form, token.part_of_speech if '動詞' in part: dictionary_verb += [base] elif '名詞' in part: dictionary_norm += [base] all_dictionary_norm += [dictionary_norm] all_dictionary_verb += [dictionary_verb]