[PYTHON] Skript, das die angegebene URL morphologisch analysiert

Experimentieren Sie, um eine morphologische Analyse für jede angegebene URL durchzuführen. Ich habe versucht, HTML-Tags mit einem regulären Ausdruck zu entfernen, kann sie jedoch nicht entfernen.

urlmecab.py



#!/user/bin/env python
# -*- coding: utf-8 -*-
import urllib
import sys
import MeCab
import re


while True:
	search_url = raw_input(u"input URL: ")
	

	def Mecab_file():	
		req = urllib.urlopen(search_url)
		dlText = req.read()

		mt = MeCab.Tagger("mecabrc")
		data = []
		p = re.compile(r"<[^>]*?>")
		sus = p.sub("", dlText)
		data.append(sus)


		node = mt.parseToNode("\n".join(data))
		words = {}
		
		while node:
			word = node.surface
			if word and node.posid >=36 and node.posid <=67:
				if not words.has_key(word):
					words[word] = 0
				words[word] += 1
			node = node.next
		word_items = words.items()
		word_items.sort()
		word_items.reverse()
		for word, count in word_items:
			print word, count
			
	if search_url:
		Mecab_file()
	else:
		break

Extrahieren Sie nur die Nomenklatur mit der Teile-ID von MeCab.

if word and node.posid >=36 and node.posid <=67:

Wenn Sie diesen Part ändern, können Sie möglicherweise viel spielen. Schleife, solange Sie die URL eingeben. Schleifenunterbrechung mit leerer Eingabe. http://〜入力する必要あり。

Recommended Posts

Skript, das die angegebene URL morphologisch analysiert
Ein Skript, das Boto verwendet, um einen bestimmten Ordner in Amason S3 hochzuladen
Ein Skript, das nur einen RSS-Feed erhält
"Python Kit", das Python-Skripte von Swift aufruft
Ein Python-Skript, das die Anzahl der Jobs für eine bestimmte Bedingung von Indeed.com abruft
Erstellen Sie ein Python-Skript, um zu überprüfen, ob der Link unter der angegebenen URL gültig ist
Ein Skript, das so lange sucht, bis die entsprechende URL mit einem Hatena-Lesezeichen versehen ist
Ein Skript, das eine Momentaufnahme eines EBS-Volumes erstellt
Erstellen Sie einen BOT, der die Discord-URL verkürzt
Shell-Skript zum Einfügen von Webmin in Alpine Linux
Was ist in dieser Variablen (wenn das Python-Skript ausgeführt wird)?
Ein Skript, das eine Liste der Benutzer des SoftLayer-Portals ausgibt
Shell-Skript, das beim Erstellen von Dateien doppelte Namen nummeriert
Ein Python-Skript, das ein GTK-Bild (Clipboard) in einer Datei speichert.
Erstellen wir ein Skript, das sich bei Ideone.com in Python registriert.
Erstellen eines Python-Skripts, das die e-Stat-API unterstützt (Version 2)
Ein Shell-Skript, das nur das Ergebnis der SQL-Ausführung per E-Mail sendet
Eine Reihe von Skriptdateien, die Wordcloud mit Python3 ausführen
Ein Skript, das den laufenden CloudFormation-Stapel wie ein Mannequin anzeigt
Ein Python-Skript, das Oracle-Datenbankdaten in CSV konvertiert
Python-Skript, das den Inhalt zweier Verzeichnisse vergleicht
Ich habe ein Skript geschrieben, das das Bild in zwei Teile teilt