Experimentieren Sie, um eine morphologische Analyse für jede angegebene URL durchzuführen. Ich habe versucht, HTML-Tags mit einem regulären Ausdruck zu entfernen, kann sie jedoch nicht entfernen.
urlmecab.py
#!/user/bin/env python
# -*- coding: utf-8 -*-
import urllib
import sys
import MeCab
import re
while True:
search_url = raw_input(u"input URL: ")
def Mecab_file():
req = urllib.urlopen(search_url)
dlText = req.read()
mt = MeCab.Tagger("mecabrc")
data = []
p = re.compile(r"<[^>]*?>")
sus = p.sub("", dlText)
data.append(sus)
node = mt.parseToNode("\n".join(data))
words = {}
while node:
word = node.surface
if word and node.posid >=36 and node.posid <=67:
if not words.has_key(word):
words[word] = 0
words[word] += 1
node = node.next
word_items = words.items()
word_items.sort()
word_items.reverse()
for word, count in word_items:
print word, count
if search_url:
Mecab_file()
else:
break
Extrahieren Sie nur die Nomenklatur mit der Teile-ID von MeCab.
if word and node.posid >=36 and node.posid <=67:
Wenn Sie diesen Part ändern, können Sie möglicherweise viel spielen. Schleife, solange Sie die URL eingeben. Schleifenunterbrechung mit leerer Eingabe. http://〜入力する必要あり。
Recommended Posts