Cet article est le 7ème jour du calendrier de l'Avent Cloud Analytics.
Ici, en utilisant les données Cloudant préparées le Jour 3, en utilisant le Notebook on the Data Science Experience, la gestion RDD de Spark et les articles Les phrases japonaises incluses dans le titre sont gérées par un simple traitement d'agrégation à l'aide de Janome. * L'article est devenu long, je vais donc le diviser ...
Veuillez vous référer à Article sur le 3ème jour pour la préparation de Node-RED et Cloudant et les données utilisées cette fois. De plus, l'environnement de ce notebook utilise DataScienceExperience. Pour plus de détails sur DSX, reportez-vous à Article sur le jour 1.
Créez une connexion au Cloudant préparée à partir de l'ajout d'actifs de données dans la figure ci-dessous.
Lorsque le panneau de droite s'ouvre, sélectionnez l'onglet Connexions et Créez une nouvelle connexion à partir de Créer une connexion.
Ouvrez l'écran Créer une connexion et définissez les éléments requis.
Réglage de chaque élément 1
Réglage de chaque élément 2
Si vous appuyez sur le bouton Créer, une connexion à la base de données rss de Cloudant sera créée comme indiqué ci-dessous.
Cloudant est maintenant prêt. C'est très facile.
Ensuite, créez un nouveau bloc-notes pour l'analyse. Sélectionnez ajouter des blocs-notes dans l'écran du projet pour ajouter un nouveau bloc-notes.
Il chevauche le contenu expliqué dans Jour 1, mais c'est facile.
Dans Language, vous pouvez également sélectionner le système Python 2, Cette fois, nous allons gérer le japonais, nous avons donc sélectionné 3,5, qui est facile à utiliser.
Pour l'expérience de la science des données, veuillez consulter Article sur le jour 1.
Le bloc-notes s'ouvre automatiquement lorsque vous le créez. Pour effectuer une analyse morphologique japonaise, installez Janome, un analyseur morphologique disponible en Python.
Vous pouvez utiliser pip sur Data Science Experience. Entrez le code ci-dessous dans la première cellule et exécutez
!pip install janome
Pour l'utilisation de base de Jupyter telle que l'exécution de code, reportez-vous à l'article du premier jour.
Exécutez-le pour installer Janome.
Après avoir installé Janome, faisons un simple test pour voir si Janome peut être utilisé normalement. Entrez le code d'écriture dans une nouvelle cellule et exécutez-le.
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("Des cuisses et des cuisses")
for token in tokens:
print(token)
Faites attention à l'indentation lors de la copie. C'est OK si le résultat de l'analyse morphologique normale est sorti.
Lorsque Janome sera prêt, nous écrirons le code pour obtenir les données de Cloudant. Tout d'abord, remplissez la cellule avec les données d'authentification Cloudant. Appelez les informations Cloudant que vous avez enregistrées précédemment. Ouvrez le menu Rechercher et ajouter des données en haut à droite et ouvrez Trouvez le news_rss que vous venez de vous inscrire sur Connections.
Si vous appuyez sur insérer pour coder avec une nouvelle cellule sélectionnée, la cellule remplira automatiquement les informations requises.
Exécute la cellule saisie et rend disponible la variable credentials_1. Ensuite, créez un DataFrame à l'aide de SparkSQL. Entrez le code suivant dans une nouvelle cellule et exécutez-le.
from pyspark.sql import SQLContext
#SQLContext
sqlContext = SQLContext(sc)
#load rss from cloudant
rss = sqlContext.read.format("com.cloudant.spark").\
option("cloudant.host",credentials_1["host"]).\
option("cloudant.username", credentials_1["username"]).\
option("cloudant.password",credentials_1["password"]).\
load("rss")
Spécifiez le format Cloudant dans sqlContext, spécifiez le nom d'hôte, l'utilisateur connecté et le mot de passe à partir des informations d'identification ci-dessus, puis chargez les données à partir de la table rss.
Si l'exception de Une autre instance de Derby peut avoir déjà démarré la base de données ... se produit ici, redémarrez le noyau du notebook et réexécutez le code à partir de la première cellule. Il semble qu'apache Derby soit utilisé en interne, mais il semble y avoir un cas où la gestion de la connexion ne se passe pas bien ...
Exécutez le code suivant pour voir le schéma des données chargées.
rss.printSchema()
Enfin, vérifions le contenu des données. Exécutez le code suivant pour afficher les données.
rss.show()
C'est la fin de la partie 1. J'exploiterai le japonais en utilisant PySpark et Janome de part2.
Recommended Posts