Gonfler des données textuelles par retranslation à l'aide de Google Traduction en Python

Au début

J'étais mentalement fatigué et je voulais obtenir l'approbation facilement, alors je l'ai utilisé lors du concours de PNL SIGNATE Student Cup 2020 auquel j'ai récemment participé. Je vais brièvement présenter un script de remplissage de données texte en Python qui utilise la traduction. Il existe déjà de nombreux articles similaires, donc ce n'est pas du tout nouveau.

Ensemble de données utilisé

Je n'ai pas pu en trouver un pratique, mais j'ai décidé de l'utiliser à partir du jeu de données de kaggle. Wikipedia Movie Plots

scénario

Pour le moment, je présenterai un script qui traduit les phrases anglaises en japonais et les traduit ensuite en anglais.

from googletrans import Translator

def retranslator(text, lang):
    '''Après avoir traduit de l'anglais vers une autre langue, traduisez à nouveau en anglais et essayez de gonfler les données
    '''
    translator = Translator()
    translated = translator.translate(text, src='en', dest=lang).text
    retranslated = translator.translate(translated, src=lang, dest='en').text
    return translated, retranslated

Comme ça.

Pour l'expliquer très simplement, text est la chaîne que vous voulez traduire, src est le code de langue de la langue d'origine et dest est le code de langue de la destination de la traduction.

Veuillez sélectionner votre code de langue préféré pour la traduction Google en vous référant à Language Support à l'URL suivante.

À propos, on s'attend à ce que la précision de la traduction soit meilleure dans une langue relativement importante, donc lorsque vous l'utilisez dans le but de gonfler les données, je pense qu'il est plus sûr de choisir une langue principale telle quelle. En fait, même dans les compétitions, il semble qu'il existe de nombreux cas où le français, l'allemand, l'espagnol, le japonais, le chinois, etc. sont sélectionnés et retraduits et gonflés.

En fait utiliser

Code d'exécution

import pandas as pd
from googletrans import Translator

data = pd.read_csv('./wiki_movie_plots_deduped.csv')

def retranslator(text, lang):
    '''Après avoir traduit de l'anglais vers une autre langue, traduisez à nouveau en anglais et essayez de gonfler les données
    '''
    translator = Translator()
    translated = translator.translate(text, src='en', dest=lang).text
    retranslated = translator.translate(translated, src=lang, dest='en').text
    return translated, retranslated

for i in range(5):
    row = data.iloc[i]

    translated, retranslated = retranslator(row['Plot'], 'ja')

    result = {
        'Original': row['Plot'],
        'translated': translated,
        'retranslated': retranslated
    }
    for key, val in result.items():
        print(key)
        print(val)
        print('')

production

Original A bartender is working at a saloon, serving drinks to customers. After he fills a stereotypically Irish man's bucket with beer, Carrie Nation and her followers burst inside. They assault the Irish man, pulling his hat over his eyes and then dumping the beer over his head. The group then begin wrecking the bar, smashing the fixtures, mirrors, and breaking the cash register. The bartender then sprays seltzer water in Nation's face before a group of policemen appear and order everybody to leave.[1]

translated Un barman travaille dans le salon et sert des boissons aux clients. Carrie Nation et ses partisans ont sauté après avoir rempli un seau irlandais typique avec de la bière. Ils ont attaqué l'Irlandais, lui ont passé son chapeau sur les yeux, puis lui ont jeté la bière sur la tête. Après cela, le groupe détruit le bar, l'équipement, le miroir et commence à détruire la caisse enregistreuse. Le barman vaporise ensuite de l'eau de Selzer sur le visage de Nation, puis un groupe de policiers apparaît et ordonne à tout le monde de partir. [1]

retranslated A bartender works at the salon and serves drinks to customers. Carry Nation and her followers plunge into him after he filled a typical Irish bucket with beer. They attacked the Irish, pulled his hat over his eyes, and then threw the beer over his head. After that, the group destroys the bar, destroys equipment, mirrors, and begins to destroy the cash register. The bartender then sprays Seltzer water on Nation's face, then a group of policemen appears and orders everyone to leave. [1]


Original The moon, painted with a smiling face hangs over a park at night. A young couple walking past a fence learn on a railing and look up. The moon smiles. They embrace, and the moon's smile gets bigger. They then sit down on a bench by a tree. The moon's view is blocked, causing him to frown. In the last scene, the man fans the woman with his hat because the moon has left the sky and is perched over her shoulder to see everything better.

translated La lune dessinée avec un sourire pend dans le parc la nuit. Un jeune couple marchant par-dessus une clôture apprend les balustrades et lève les yeux. La lune sourit. Ils s'embrassent et la lune sourit plus grand. Puis ils s'assirent sur un banc près de l'arbre. La vue sur la lune était obstruée et il fronça les sourcils. Dans la scène finale, la lune quitte le ciel et tout est clairement visible par-dessus l'épaule, donc l'homme porte un chapeau et incite la femme.

retranslated The moon drawn with a smile hangs in the park at night. A young couple walking over the fence learns about the handrail and looks up. The moon smiles. They hug and make the moon smile bigger. Then they sat on a bench by the tree. The moon's view was blocked and he frowned. In the last scene, the man leaves the sky and sees everything over his shoulder, so men wear hats to incite women.


Original The film, just over a minute long, is composed of two shots. In the first, a girl sits at the base of an altar or tomb, her face hidden from the camera. At the center of the altar, a viewing portal displays the portraits of three U.S. Presidents—Abraham Lincoln, James A. Garfield, and William McKinley—each victims of assassination. In the second shot, which runs just over eight seconds long, an assassin kneels feet of Lady Justice.

translated Ce film dure un peu plus d'une minute et se compose de deux plans. Au départ, la jeune fille est assise au pied d'un autel ou d'une tombe, le visage caché de la caméra. Le portail d'observation au centre de l'autel présente des portraits des trois victimes de l'assassinat, Abraham Lincoln, James A. Garfield et William McKinley. Le deuxième coup prend un peu plus de 8 secondes et s'agenouille sur la déesse de la justice.

retranslated This movie is a little over a minute and consists of two shots. Initially, the girl sits at the base of the altar or grave, with her face hidden from the camera. A viewing portal in the center of the altar shows portraits of three US presidents, Abraham Lincoln, James A. Garfield and William McKinley, who are victims of assassination. The second shot is just over 8 seconds and kneels on the feet of the goddess of justice.


Original Lasting just 61 seconds and consisting of two shots, the first shot is set in a wood during winter. The actor representing then vice-president Theodore Roosevelt enthusiastically hurries down a hillside towards a tree in the foreground. He falls once, but rights himself and cocks his rifle. Two other men, bearing signs reading "His Photographer" and "His Press Agent" respectively, follow him into the shot; the photographer sets up his camera. "Teddy" aims his rifle upward at the tree and fells what appears to be a common house cat, which he then proceeds to stab. "Teddy" holds his prize aloft, and the press agent takes notes. The second shot is taken in a slightly different part of the wood, on a path. "Teddy" rides the path on his horse towards the camera and out to the left of the shot, followed closely by the press agent and photographer, still dutifully holding their signs.

translated Il se compose de deux clichés en seulement 61 secondes, et pendant l'hiver, le premier cliché est pris dans les bois. L'acteur représentant Theodore Roosevelt, qui était alors vice-président, se précipite avec enthousiasme en bas de la colline vers l'arbre au premier plan. Il s'effondre une fois, mais se donne le droit et tire avec son fusil. Les deux autres hommes le poursuivent, étiquetés respectivement «son photographe» et «son attaché de presse». Le photographe installe l'appareil photo. "Teddy" pointe le fusil sur un arbre, bat et perce ce qui ressemble à un chat domestique normal. "Teddy" tient son prix élevé, et le journaliste prend des notes. La deuxième photo est prise sur un sentier dans une partie légèrement différente de la forêt. "Teddy" se dirige vers la caméra et sort à gauche de la photo, suivi de près par l'agent de presse et le photographe, tenant toujours fidèlement la pancarte.

retranslated Consisting of two shots of only 61 seconds, during the winter the first shot is taken in the woods. At the time, the actor, who represented Vice President Theodore Roosevelt, enthusiastically rushed down the hill toward the trees in front. He falls once, but empowers himself and shoots his rifle. Two other men chase him, marking them with "his photographer" and "his reporter agent" respectively. The cameraman sets up the camera. The "teddy" points its rifle at a tree, defeats and sticks what looks like a normal domestic cat. "Teddy" has raised his award high and reporters take notes. The second shot is taken on a path in a slightly different part of the forest. "Teddy" heads his horse towards the camera and out to the left of the shot, closely followed by the press agent and the photographer, still faithfully holding the autograph.


Original The earliest known adaptation of the classic fairytale, this films shows Jack trading his cow for the beans, his mother forcing him to drop them in the front yard, and beig forced upstairs. As he sleeps, Jack is visited by a fairy who shows him glimpses of what will await him when he ascends the bean stalk. In this version, Jack is the son of a deposed king. When Jack wakes up, he finds the beanstalk has grown and he climbs to the top where he enters the giant's home. The giant finds Jack, who narrowly escapes. The giant chases Jack down the bean stalk, but Jack is able to cut it down before the giant can get to safety. He falls and is killed as Jack celebrates. The fairy then reveals that Jack may return home as a prince.

translated La plus ancienne adaptation connue des contes de fées classiques, ce film oblige Jack à échanger ses vaches contre des haricots, sa mère l'oblige à les déposer dans la cour avant et à l'étage. Montre un beag forcé. Jack est une fée qui lui rend visite quand il dort. La fée donne un aperçu de ce qui l'attend alors qu'il grimpe sur la tige de haricot. Dans cette version, Jack est le fils d'un roi à la retraite. Quand Jack se réveille, il découvre un haricot qui pousse et il grimpe au sommet de la maison du géant. Le géant trouve Jack pour s'échapper légèrement. Le géant poursuit Jack sur la tige du haricot, mais Jack peut la couper avant que le géant ne devienne en sécurité. Quand Jack célèbre, il tombe et est tué. La fée révèle que Jack rentre à la maison en tant que prince.

retranslated The earliest known adaptation of the classic fairy tale, this film shows Jack exchanging his cows for beans, his mother forcing him to drop them in the front yard, and upstairs. Shows forced beag. When he is asleep, Jack is visited by fairies. The fairy gives a glimpse of what he is waiting for when he climbs the bean stalk. In this version, Jack is the son of the deposed King. When Jack wakes up, he finds a bean tree growing and he climbs to the top of the giant's house. The giant finds Jack who escapes slightly. The giant chases Jack for the bean stalk, but Jack can chop it off before the giant is safe. When Jack celebrates, he falls and is killed. The fairy reveals that Jack will return home as a prince.

Ce n'est pas si facile de voir le résultat de sortie, mais je n'ai pas beaucoup de force mentale pour prêter attention à de tels détails, alors pardonnez-moi.

Saviez-vous quelle intrigue de film à partir du texte traduit? Si vous êtes intéressé, veuillez voir le titre par vous-même, sauf pour le jeu de données kaggle.

Traduction japonaise? Je sens qu'il y a des parties qui deviennent, mais la retraduite est n

Vous pouvez désormais utiliser la technique souvent utilisée dans les compétitions de PNL pour gonfler les données en exprimant des phrases avec le même sens dans des expressions légèrement différentes. L'inconvénient est que cela dépend de la qualité de la traduction, mais je pense que c'est une méthode relativement simple et raisonnablement efficace, alors essayez-la.

Bonus situation récente

Récemment (même si c'était il y a environ une semaine), j'ai participé à la SIGNATE Student Cup 2020. Là, ma force mentale a été réduite. Cliquez ici pour participer (style qui n'oublie pas de faire de la publicité) [SIGNATER Student Cup 2020 [section de prédiction] Participation (version pop-ketle)](https://pop-ketle.hatenablog.com/entry/2020/08/28/ 130451)

Donc, j'écris en divisant en parties Faisons une application qui peut rechercher des images similaires avec Python et Flask Part2 a déjà été mis à jour Je veux que vous attendiez un moment. En fait, comment devrions-nous développer l'application la prochaine fois, et devrions-nous correctement rechercher et rédiger les commentaires de Flask? La situation actuelle est que je n'ai pas beaucoup de temps pour écrire un article parce que je suis inquiet pour la prochaine initiative et il y a d'autres choses que je dois faire. (J'ai écrit cet article pendant une heure parce que je voulais avoir le sentiment de faire de mon mieux facilement.) Au revoir tout le monde pendant un moment, prenez bien soin de votre force mentale.

Recommended Posts

Gonfler des données textuelles par retranslation à l'aide de Google Traduction en Python
Traduit à l'aide de googletrans en Python
[Python3] Google translate google translation sans utiliser l'API
Obtenez les données de l'API Google Fit en Python
Obtenez des données Youtube en Python à l'aide de l'API Youtube Data
Créer une feuille de calcul Google à l'aide de l'API Python / Google Data
Mettez du texte récupéré en Python dans une feuille de calcul Google
Texte de cluster en Python
Nettoyage des données à l'aide de Python
Traitement de texte avec Python
Créer un bot de collecte de données en Python à l'aide de Selenium
Importez un fichier JPG à l'aide de l'API Google Drive en Python
Enregistrez collectivement des données dans Firestore à l'aide d'un fichier csv en Python
Obtenez des données LEAD à l'aide de l'API REST de Marketo en Python
[Python] Obtenez des données insight à l'aide de l'API Google My Business
Reconnaissance vocale des fichiers par l'API Google Speech v2 à l'aide de Python
[Mémo] Correspondance de texte dans le cadre de données pandas à l'aide de Flashtext
Gérer les données ambiantes en Python
Traitement de texte UTF8 avec python
Afficher les données UTM-30LX en Python
Sélectionnez des fonctionnalités avec des données textuelles
Sortie de données Excel en écriture séparée à l'aide de Python3 + xlrd + mecab
[Introduction] Analyse de données satellitaires artificielles à l'aide de Python (environnement Google Colab)
Parler avec Python [synthèse vocale]
Lisez des phrases en anglais en accédant à l'API Google Translation avec Python sans utiliser le module distribué
Obtenez une traduction en anglais à l'aide de python google translation selenium (Remarque)
Graphique des données de séries chronologiques en Python à l'aide de pandas et matplotlib
Analyse de données à l'aide de pandas python
Utilisation du mode Python dans le traitement
Trier par date en python
Jouez avec l'API de données YouTube v3 à l'aide du client Python de l'API Google
Une analyse simple des données de Bitcoin fournie par CoinMetrics en Python
Extraction d'objets dans l'image par correspondance de modèles en utilisant OpenCV avec Python
[SEO] Flux / exemple de code lors de l'utilisation de l'API Google Analytics en Python
Obtenez des données LeapMotion en Python.
Programmation GUI en Python avec Appjar
Précautions lors de l'utilisation de Pit avec Python
Acquisition de données à l'aide de l'API googlemap de python
GOTO en Python avec Sublime Text 3
Lire les données des tampons de protocole avec Python3
Obtenir des données de Quandl en Python
Gérez les données au format NetCDF avec Python
Essayez d'utiliser LevelDB avec Python (plyvel)
Téléchargez des fichiers Google Drive en Python
Générer des images de texte multilingues à l'aide de Python
Utiliser de force Google Translate à partir de python
Détermination du système d'exploitation par Makefile en utilisant Python
Extraire du texte d'images avec Python
Utilisation de variables globales dans les fonctions python
Trier les gros fichiers texte en Python
Hashing de données en R et Python
Voyons voir l'utilisation de l'entrée en python
Puissance totale en Python (en utilisant functools)
Lire et écrire du texte en Python
Reconnaissance de caractères manuscrits à l'aide de KNN en Python
Essayez d'utiliser LeapMotion avec Python