めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

Python3、janomeで形態素解析

自然言語処理前処理

Welcome to janome’s documentation! — Janome v0.2 documentation

の Janomeを使用。MecabをUbuntu で使用するときは文字コードあたりがめんどくさかった記憶があるので（使ったことはあったけど）パス。

janome のインストール

Ubuntu 14.04 、python3の環境で

$ pip install janome

で完了！

形態素解析

from janome.tokenizer import Tokenizer
from gensim import corpora, matutils
from gensim import corpora

t = Tokenizer()
data = list(pd.read_csv('Crawl_data/ALL_text_ニュース.csv')['text'].values)

data の中身は 新規登録(無料)！無料ではじめる！初めての方はこちらから。...のリストになってます。

名詞と動詞のみ抽出

tokendataに文を切り抜いて形態素解析した結果が入っています。

all_dictionary_norm, all_dictionary_verb = [], []

for i in range(len(data)):
    dictionary_norm, dictionary_verb = [], []

    try:
        tokendata = t.tokenize(data[i])
    except:
        continue
    
    for token in tokendata:
        base, part = token.base_form, token.part_of_speech
        
        if '動詞' in part:
            dictionary_verb += [base]
        elif '名詞' in part:
            dictionary_norm += [base]
            
    all_dictionary_norm += [dictionary_norm]
    all_dictionary_verb += [dictionary_verb]

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス（Googleアドセンス、A8.net）を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー（Cookie）を使用しております。クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ：このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。