Expérimentez pour essayer une analyse morphologique pour chaque URL spécifiée. J'ai essayé de supprimer les balises HTML avec une expression régulière, mais je ne peux pas les supprimer.
urlmecab.py
#!/user/bin/env python
# -*- coding: utf-8 -*-
import urllib
import sys
import MeCab
import re
while True:
search_url = raw_input(u"input URL: ")
def Mecab_file():
req = urllib.urlopen(search_url)
dlText = req.read()
mt = MeCab.Tagger("mecabrc")
data = []
p = re.compile(r"<[^>]*?>")
sus = p.sub("", dlText)
data.append(sus)
node = mt.parseToNode("\n".join(data))
words = {}
while node:
word = node.surface
if word and node.posid >=36 and node.posid <=67:
if not words.has_key(word):
words[word] = 0
words[word] += 1
node = node.next
word_items = words.items()
word_items.sort()
word_items.reverse()
for word, count in word_items:
print word, count
if search_url:
Mecab_file()
else:
break
Extraire uniquement la nomenclature avec l'ID de pièce de MeCab.
if word and node.posid >=36 and node.posid <=67:
Si vous changez cette partie, vous pourrez peut-être jouer beaucoup. Bouclez tant que vous continuez à taper l'URL. Saut de boucle avec entrée vide. http://〜入力する必要あり。
Recommended Posts