[PYTHON] Script qui analyse morphologiquement l'URL spécifiée

Expérimentez pour essayer une analyse morphologique pour chaque URL spécifiée. J'ai essayé de supprimer les balises HTML avec une expression régulière, mais je ne peux pas les supprimer.

urlmecab.py



#!/user/bin/env python
# -*- coding: utf-8 -*-
import urllib
import sys
import MeCab
import re


while True:
	search_url = raw_input(u"input URL: ")
	

	def Mecab_file():	
		req = urllib.urlopen(search_url)
		dlText = req.read()

		mt = MeCab.Tagger("mecabrc")
		data = []
		p = re.compile(r"<[^>]*?>")
		sus = p.sub("", dlText)
		data.append(sus)


		node = mt.parseToNode("\n".join(data))
		words = {}
		
		while node:
			word = node.surface
			if word and node.posid >=36 and node.posid <=67:
				if not words.has_key(word):
					words[word] = 0
				words[word] += 1
			node = node.next
		word_items = words.items()
		word_items.sort()
		word_items.reverse()
		for word, count in word_items:
			print word, count
			
	if search_url:
		Mecab_file()
	else:
		break

Extraire uniquement la nomenclature avec l'ID de pièce de MeCab.

if word and node.posid >=36 and node.posid <=67:

Si vous changez cette partie, vous pourrez peut-être jouer beaucoup. Bouclez tant que vous continuez à taper l'URL. Saut de boucle avec entrée vide. http://〜入力する必要あり。

Recommended Posts

Script qui analyse morphologiquement l'URL spécifiée
Un script qui utilise boto pour télécharger un dossier spécifié sur Amason S3
Un script qui ne reçoit qu'un flux RSS
"Kit Python" qui appelle des scripts Python depuis Swift
Un script python qui obtient le nombre de travaux pour une condition spécifiée sur Indeed.com
Créez un script python pour vérifier si le lien à l'URL spécifiée est valide
Un script qui poursuit sa recherche jusqu'à ce que l'URL correspondante soit mise en signet avec Hatena Bookmark
Un script qui prend un instantané d'un volume EBS
Créez un BOT qui raccourcit l'URL Discord
Script Shell pour mettre Webmin dans Alpine Linux
Que contient cette variable (lorsque le script Python est en cours d'exécution)
Un script qui génère une liste d'utilisateurs du portail SoftLayer
Script shell qui numérote les noms en double lors de la création de fichiers
Un script Python qui enregistre une image de presse-papiers (GTK) dans un fichier.
Créons un script qui s'enregistre avec Ideone.com en Python.
Création d'un script Python prenant en charge l'API e-Stat (ver.2)
Un script shell qui envoie simplement le résultat de l'exécution SQL
Un ensemble de fichiers de script qui font wordcloud avec Python3
Un script qui affiche la pile CloudFormation en cours d'exécution comme un mannequin
Un script python qui convertit les données Oracle Database en csv
Script Python qui compare le contenu de deux répertoires
J'ai écrit un script qui divise l'image en deux