Aufblasen von Textdaten durch erneute Übersetzung mithilfe der Google-Übersetzung in Python

Am Anfang

Ich war geistig müde und wollte leicht eine Genehmigung erhalten, deshalb habe ich sie beim NLP-Wettbewerb SIGNATE Student Cup 2020 verwendet, an dem ich kürzlich teilgenommen habe. Ich werde kurz ein Skript zum Auffüllen von Textdaten in Python einführen, das die Übersetzung verwendet. Es gibt bereits viele ähnliche Artikel, daher ist es überhaupt nicht neu.

Verwendeter Datensatz

Ich konnte kein handliches finden, aber ich entschied mich, dieses aus dem Datensatz von kaggle zu verwenden. Wikipedia Movie Plots

Skript

Vorerst werde ich ein Skript einführen, das englische Sätze ins Japanische übersetzt und sie dann ins Englische übersetzt.

from googletrans import Translator

def retranslator(text, lang):
    '''Nachdem Sie vom Englischen in eine andere Sprache übersetzt haben, übersetzen Sie erneut ins Englische und versuchen Sie, die Daten aufzublähen
    '''
    translator = Translator()
    translated = translator.translate(text, src='en', dest=lang).text
    retranslated = translator.translate(translated, src=lang, dest='en').text
    return translated, retranslated

So was.

Um es wirklich einfach zu erklären: Text ist die Zeichenfolge, die Sie übersetzen möchten, src ist der Sprachcode der Originalsprache und dest ist der Sprachcode des Übersetzungsziels.

Bitte wählen Sie Ihren bevorzugten Sprachcode für die Google-Übersetzung unter Sprachunterstützung unter der folgenden URL aus.

Übrigens wird erwartet, dass die Übersetzungsgenauigkeit in einer relativ wichtigen Sprache besser ist. Wenn Sie sie also zum Aufblasen von Daten verwenden, ist es meiner Meinung nach sicherer, eine wichtige Sprache so zu wählen, wie sie ist. Selbst bei Wettbewerben scheint es viele Fälle zu geben, in denen Französisch, Deutsch, Spanisch, Japanisch, Chinesisch usw. ausgewählt und erneut übersetzt und aufgeblasen werden.

Eigentlich verwenden

Ausführungscode

import pandas as pd
from googletrans import Translator

data = pd.read_csv('./wiki_movie_plots_deduped.csv')

def retranslator(text, lang):
    '''Nachdem Sie vom Englischen in eine andere Sprache übersetzt haben, übersetzen Sie erneut ins Englische und versuchen Sie, die Daten aufzublähen
    '''
    translator = Translator()
    translated = translator.translate(text, src='en', dest=lang).text
    retranslated = translator.translate(translated, src=lang, dest='en').text
    return translated, retranslated

for i in range(5):
    row = data.iloc[i]

    translated, retranslated = retranslator(row['Plot'], 'ja')

    result = {
        'Original': row['Plot'],
        'translated': translated,
        'retranslated': retranslated
    }
    for key, val in result.items():
        print(key)
        print(val)
        print('')

Ausgabe

Original A bartender is working at a saloon, serving drinks to customers. After he fills a stereotypically Irish man's bucket with beer, Carrie Nation and her followers burst inside. They assault the Irish man, pulling his hat over his eyes and then dumping the beer over his head. The group then begin wrecking the bar, smashing the fixtures, mirrors, and breaking the cash register. The bartender then sprays seltzer water in Nation's face before a group of policemen appear and order everybody to leave.[1]

translated Ein Barkeeper arbeitet im Salon und serviert den Kunden Getränke. Carrie Nation und ihre Anhänger sprangen ein, nachdem er einen typischen irischen Eimer mit Bier gefüllt hatte. Sie griffen die Iren an, zogen seinen Hut über seine Augen und warfen ihm dann das Bier über den Kopf. Danach zerstört die Gruppe die Bar, die Ausrüstung und den Spiegel und beginnt, die Registrierkasse zu zerstören. Der Barkeeper sprüht dann Selzer Wasser auf Nation's Gesicht, und dann erscheint eine Gruppe von Polizisten und befiehlt allen zu gehen. [1]

retranslated A bartender works at the salon and serves drinks to customers. Carry Nation and her followers plunge into him after he filled a typical Irish bucket with beer. They attacked the Irish, pulled his hat over his eyes, and then threw the beer over his head. After that, the group destroys the bar, destroys equipment, mirrors, and begins to destroy the cash register. The bartender then sprays Seltzer water on Nation's face, then a group of policemen appears and orders everyone to leave. [1]


Original The moon, painted with a smiling face hangs over a park at night. A young couple walking past a fence learn on a railing and look up. The moon smiles. They embrace, and the moon's smile gets bigger. They then sit down on a bench by a tree. The moon's view is blocked, causing him to frown. In the last scene, the man fans the woman with his hat because the moon has left the sky and is perched over her shoulder to see everything better.

translated Der mit einem Lächeln gezeichnete Mond hängt nachts im Park. Ein junges Paar, das über einen Zaun geht, lernt etwas über Geländer und schaut auf. Der Mond lächelt. Sie umarmen sich und der Mond lächelt größer. Dann saßen sie auf einer Bank am Baum. Die Sicht auf den Mond war versperrt und er runzelte die Stirn. In der letzten Szene verlässt der Mond den Himmel und alles ist über die Schulter deutlich sichtbar, sodass der Mann einen Hut trägt und die Frau aufstachelt.

retranslated The moon drawn with a smile hangs in the park at night. A young couple walking over the fence learns about the handrail and looks up. The moon smiles. They hug and make the moon smile bigger. Then they sat on a bench by the tree. The moon's view was blocked and he frowned. In the last scene, the man leaves the sky and sees everything over his shoulder, so men wear hats to incite women.


Original The film, just over a minute long, is composed of two shots. In the first, a girl sits at the base of an altar or tomb, her face hidden from the camera. At the center of the altar, a viewing portal displays the portraits of three U.S. Presidents—Abraham Lincoln, James A. Garfield, and William McKinley—each victims of assassination. In the second shot, which runs just over eight seconds long, an assassin kneels feet of Lady Justice.

translated Dieser Film ist etwas mehr als eine Minute lang und besteht aus zwei Einstellungen. Zunächst sitzt das Mädchen am Fuße eines Altars oder Grabes, das Gesicht vor der Kamera verborgen. Das Aussichtsportal in der Mitte des Altars zeigt Porträts der drei Opfer des Attentats, Abraham Lincoln, James A. Garfield und William McKinley. Der zweite Schuss dauert etwas mehr als 8 Sekunden und kniet sich auf die Göttin der Gerechtigkeit.

retranslated This movie is a little over a minute and consists of two shots. Initially, the girl sits at the base of the altar or grave, with her face hidden from the camera. A viewing portal in the center of the altar shows portraits of three US presidents, Abraham Lincoln, James A. Garfield and William McKinley, who are victims of assassination. The second shot is just over 8 seconds and kneels on the feet of the goddess of justice.


Original Lasting just 61 seconds and consisting of two shots, the first shot is set in a wood during winter. The actor representing then vice-president Theodore Roosevelt enthusiastically hurries down a hillside towards a tree in the foreground. He falls once, but rights himself and cocks his rifle. Two other men, bearing signs reading "His Photographer" and "His Press Agent" respectively, follow him into the shot; the photographer sets up his camera. "Teddy" aims his rifle upward at the tree and fells what appears to be a common house cat, which he then proceeds to stab. "Teddy" holds his prize aloft, and the press agent takes notes. The second shot is taken in a slightly different part of the wood, on a path. "Teddy" rides the path on his horse towards the camera and out to the left of the shot, followed closely by the press agent and photographer, still dutifully holding their signs.

translated Es besteht aus zwei Aufnahmen in nur 61 Sekunden, und im Winter wird die erste Aufnahme im Wald gemacht. Der Schauspieler, der Theodore Roosevelt vertritt, der zu dieser Zeit Vizepräsident war, eilt begeistert den Hang hinunter auf den Baum im Vordergrund zu. Er bricht einmal zusammen, gibt sich aber das Recht und schießt auf sein Gewehr. Zwei weitere Männer jagen ihm nach und bezeichnen ihn als "seinen Fotografen" bzw. "seinen Pressevertreter". Der Fotograf stellt die Kamera auf. "Teddy" richtet das Gewehr auf den Baum, besiegt und durchbohrt etwas, das wie eine normale Hauskatze aussieht. "Teddy" hält seine Auszeichnung hoch und der Reporter macht sich Notizen. Die zweite Aufnahme wird auf einer Spur in einem etwas anderen Teil des Waldes gemacht. "Teddy" geht den Weg seines Pferdes in Richtung Kamera und links von der Aufnahme, dicht gefolgt von dem Pressevertreter und Fotografen, der das Schild immer noch treu hält.

retranslated Consisting of two shots of only 61 seconds, during the winter the first shot is taken in the woods. At the time, the actor, who represented Vice President Theodore Roosevelt, enthusiastically rushed down the hill toward the trees in front. He falls once, but empowers himself and shoots his rifle. Two other men chase him, marking them with "his photographer" and "his reporter agent" respectively. The cameraman sets up the camera. The "teddy" points its rifle at a tree, defeats and sticks what looks like a normal domestic cat. "Teddy" has raised his award high and reporters take notes. The second shot is taken on a path in a slightly different part of the forest. "Teddy" heads his horse towards the camera and out to the left of the shot, closely followed by the press agent and the photographer, still faithfully holding the autograph.


Original The earliest known adaptation of the classic fairytale, this films shows Jack trading his cow for the beans, his mother forcing him to drop them in the front yard, and beig forced upstairs. As he sleeps, Jack is visited by a fairy who shows him glimpses of what will await him when he ascends the bean stalk. In this version, Jack is the son of a deposed king. When Jack wakes up, he finds the beanstalk has grown and he climbs to the top where he enters the giant's home. The giant finds Jack, who narrowly escapes. The giant chases Jack down the bean stalk, but Jack is able to cut it down before the giant can get to safety. He falls and is killed as Jack celebrates. The fairy then reveals that Jack may return home as a prince.

translated Dieser Film ist die früheste bekannte Adaption klassischer Märchen und zwingt Jack, seine Kühe gegen Bohnen auszutauschen. Seine Mutter zwingt ihn, sie in den Vorgarten und nach oben zu werfen. Zeigt einen erzwungenen Beag. Jack ist eine Fee besucht, wenn er schläft. Die Fee gibt einen Blick auf das, was vor ihm liegt, als er auf den Bohnenstiel klettert. In dieser Version ist Jack der Sohn eines pensionierten Königs. Als Jack aufwacht, entdeckt er einen wachsenden Bohnenbaum und klettert auf die Spitze des Riesenhauses. Der Riese findet Jack leicht zu entkommen. Der Riese jagt Jack auf dem Bohnenstiel, aber Jack kann ihn abschneiden, bevor der Riese in Sicherheit kommt. Wenn Jack feiert, fällt er und wird getötet. Die Fee enthüllt, dass Jack als Prinz nach Hause geht.

retranslated The earliest known adaptation of the classic fairy tale, this film shows Jack exchanging his cows for beans, his mother forcing him to drop them in the front yard, and upstairs. Shows forced beag. When he is asleep, Jack is visited by fairies. The fairy gives a glimpse of what he is waiting for when he climbs the bean stalk. In this version, Jack is the son of the deposed King. When Jack wakes up, he finds a bean tree growing and he climbs to the top of the giant's house. The giant finds Jack who escapes slightly. The giant chases Jack for the bean stalk, but Jack can chop it off before the giant is safe. When Jack celebrates, he falls and is killed. The fairy reveals that Jack will return home as a prince.

Das Ausgabeergebnis ist nicht so leicht zu sehen, aber ich habe nicht viel geistige Kraft, um auf solche Details zu achten. Bitte verzeihen Sie mir.

Wussten Sie, welche Filmhandlung aus dem übersetzten Text stammt? Wenn Sie interessiert sind, sehen Sie sich bitte den Titel selbst an, mit Ausnahme des Kaggle-Datensatzes.

Japanische Übersetzung? Ich habe das Gefühl, dass es einige Teile gibt, die werden, aber der neu übersetzte ist n

Jetzt können Sie die in NLP-Wettbewerben häufig verwendete Technik verwenden, um Daten aufzublasen, indem Sie Sätze mit derselben Bedeutung in leicht unterschiedlichen Ausdrücken ausdrücken. Der Nachteil ist, dass es von der Qualität der Übersetzung abhängt, aber ich denke, dass dies eine relativ einfache und einigermaßen effektive Methode ist. Probieren Sie es also bitte aus.

Bonusstatus

Kürzlich (obwohl es ungefähr eine Woche her ist) habe ich am SIGNATE Student Cup 2020 teilgenommen. Dort wurde meine mentale Stärke reduziert. Klicken Sie hier für die Teilnahme (Stil, bei dem die Werbung nicht vergessen wird) [SIGNATE Student Cup 2020 [Abschnitt Vorhersage] Teilnahme (Pop-Ketle-Version)](https://pop-ketle.hatenablog.com/entry/2020/08/28/ 130451)

Ich schreibe gerade, während ich in Teile teile Lassen Sie uns eine App erstellen, die ähnliche Bilder mit Python und Flask Teil 2 durchsuchen kann, die bereits aktualisiert wurde Ich möchte, dass du eine Weile wartest. Sollten wir Flask 'Kommentar zur nächsten Entwicklung der App richtig recherchieren und schreiben? Die aktuelle Situation ist, dass ich nicht viel Zeit habe, um einen Artikel zu schreiben, weil ich mir Sorgen um die nächste Initiative mache und noch einige andere Dinge zu tun habe. (Ich habe diesen Artikel eine Stunde lang geschrieben, weil ich das Gefühl haben wollte, mein Bestes zu geben.) Auf Wiedersehen, bitte, pass gut auf deine mentale Stärke auf.

Recommended Posts

Aufblasen von Textdaten durch erneute Übersetzung mithilfe der Google-Übersetzung in Python
Übersetzt mit Googletrans in Python
[Python3] Google übersetzt Google Übersetzung ohne Verwendung von API
Holen Sie sich Google Fit API-Daten in Python
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
Erstellen einer Google-Tabelle mit der Python / Google Data-API
Fügen Sie in Python gekratzten Text in eine Google-Tabelle ein
Clustertext in Python
Datenbereinigung mit Python
Textverarbeitung mit Python
Erstellen Sie mit Selenium einen Datenerfassungsbot in Python
Laden Sie eine JPG-Datei mit der Google Drive-API in Python hoch
Registrieren Sie gemeinsam Daten im Firestore mithilfe der CSV-Datei in Python
Holen Sie sich LEAD-Daten mit der REST-API von Marketo in Python
[Python] Abrufen von Insight-Daten mithilfe der Google My Business-API
Sprachdateierkennung durch Google Speech API v2 mit Python
[Memo] Textabgleich im Pandas-Datenrahmen mit Flashtext
Behandeln Sie Umgebungsdaten in Python
UTF8-Textverarbeitung mit Python
Zeigen Sie UTM-30LX-Daten in Python an
Wählen Sie Features mit Textdaten aus
Geben Sie Excel-Daten mit Python3 + xlrd + mecab separat aus
[Einführung] Künstliche Satellitendatenanalyse mit Python (Google Colab-Umgebung)
Sprechen mit Python [Text zu Sprache]
Lesen Sie englische Sätze, indem Sie mit Python auf die Google Übersetzungs-API klicken, ohne das verteilte Modul zu verwenden
Holen Sie sich eine englische Übersetzung mit Python Google Translation Selen (Hinweis)
Zeichnen Sie Zeitreihendaten in Python mit Pandas und Matplotlib
Datenanalyse mit Python-Pandas
Verwenden des Python-Modus in der Verarbeitung
Sortieren nach Datum in Python
Spielen Sie mit der YouTube Data API v3 mit dem Google API Python Client
Eine einfache Datenanalyse von Bitcoin, die von CoinMetrics in Python bereitgestellt wird
Objektextraktion im Bild durch Mustervergleich mit OpenCV mit Python
[SEO] Flow / Beispielcode bei Verwendung der Google Analytics-API in Python
Holen Sie sich LeapMotion-Daten in Python.
GUI-Programmierung in Python mit Appjar
Vorsichtsmaßnahmen bei der Verwendung von Pit mit Python
Datenerfassung mit Python Googlemap API
GOTO in Python mit erhabenem Text 3
Lesen Sie die Protokollpufferdaten mit Python3
Behandeln Sie Daten im NetCDF-Format mit Python
Versuchen Sie es mit LevelDB mit Python (plyvel)
Laden Sie Google Drive-Dateien in Python herunter
Generieren mehrsprachiger Textbilder mit Python
Verwenden Sie zwangsweise Google Translate aus Python
Betriebssystembestimmung durch Makefile mit Python
Extrahieren Sie mit Python Text aus Bildern
Verwendung globaler Variablen in Python-Funktionen
Sortieren Sie große Textdateien in Python
Hashing von Daten in R und Python
Mal sehen, wie man Eingaben in Python verwendet
Gesamtleistung in Python (mit Funktools)
Lesen und Schreiben von Text in Python
Handschriftliche Zeichenerkennung mit KNN in Python
Versuchen Sie es mit LeapMotion mit Python