[PYTHON] Skript, das die angegebene URL morphologisch analysiert

Experimentieren Sie, um eine morphologische Analyse für jede angegebene URL durchzuführen. Ich habe versucht, HTML-Tags mit einem regulären Ausdruck zu entfernen, kann sie jedoch nicht entfernen.

`urlmecab.py`



#!/user/bin/env python
# -*- coding: utf-8 -*-
import urllib
import sys
import MeCab
import re


while True:
	search_url = raw_input(u"input URL: ")
	

	def Mecab_file():	
		req = urllib.urlopen(search_url)
		dlText = req.read()

		mt = MeCab.Tagger("mecabrc")
		data = []
		p = re.compile(r"<[^>]*?>")
		sus = p.sub("", dlText)
		data.append(sus)


		node = mt.parseToNode("\n".join(data))
		words = {}
		
		while node:
			word = node.surface
			if word and node.posid >=36 and node.posid <=67:
				if not words.has_key(word):
					words[word] = 0
				words[word] += 1
			node = node.next
		word_items = words.items()
		word_items.sort()
		word_items.reverse()
		for word, count in word_items:
			print word, count
			
	if search_url:
		Mecab_file()
	else:
		break

Extrahieren Sie nur die Nomenklatur mit der Teile-ID von MeCab.

if word and node.posid >=36 and node.posid <=67:

Wenn Sie diesen Part ändern, können Sie möglicherweise viel spielen. Schleife, solange Sie die URL eingeben. Schleifenunterbrechung mit leerer Eingabe. http://〜入力する必要あり。

Recommended Posts

Skript, das die angegebene URL morphologisch analysiert

Ein Skript, das Boto verwendet, um einen bestimmten Ordner in Amason S3 hochzuladen

Ein Skript, das nur einen RSS-Feed erhält

"Python Kit", das Python-Skripte von Swift aufruft

Ein Python-Skript, das die Anzahl der Jobs für eine bestimmte Bedingung von Indeed.com abruft

Erstellen Sie ein Python-Skript, um zu überprüfen, ob der Link unter der angegebenen URL gültig ist

Ein Skript, das so lange sucht, bis die entsprechende URL mit einem Hatena-Lesezeichen versehen ist

Ein Skript, das eine Momentaufnahme eines EBS-Volumes erstellt

Erstellen Sie einen BOT, der die Discord-URL verkürzt

Shell-Skript zum Einfügen von Webmin in Alpine Linux

Was ist in dieser Variablen (wenn das Python-Skript ausgeführt wird)?