[PYTHON] Lesen des SNLI-Datensatzes

Was ist SNLI?

--Standord Natural Language Inference [^ 1]

Text Judgments Hypothesis
A man inspects the uniform of a figure in some East Asian country. contradiction The man is sleeping
An older and younger man smiling. neutral Two men are smiling and laughing at the cats playing on the floor.
A black race car starts up in front of a crowd of people. contradiction A man is driving down a lonely road.
A soccer game with multiple males playing. entailment Some men are playing a sport.
A smiling costumed woman is holding an umbrella. neutral A happy woman in a fairy costume holds an umbrella.
{
	"annotator_labels": ["neutral"], 
	"captionID": "3416050480.jpg#4", 
	"gold_label": "neutral", 
	"pairID": "3416050480.jpg#4r1n", 
	"sentence1": "A person on a horse jumps over a broken down airplane.",
	"sentence1_binary_parse": "( ( ( A person ) ( on ( a horse ) ) ) ( ( jumps ( over ( a ( broken ( down airplane ) ) ) ) ) . ) )",
	"sentence1_parse": "(ROOT (S (NP (NP (DT A) (NN person)) (PP (IN on) (NP (DT a) (NN horse)))) (VP (VBZ jumps) (PP (IN over) (NP (DT a) (JJ broken) (JJ down) (NN airplane)))) (. .)))", 
	"sentence2": "A person is training his horse for a competition.", 
	"sentence2_binary_parse": "( ( A person ) ( ( is ( ( training ( his horse ) ) ( for ( a competition ) ) ) ) . ) )", 
	"sentence2_parse": "(ROOT (S (NP (DT A) (NN person)) (VP (VBZ is) (VP (VBG training) (NP (PRP$ his) (NN horse)) (PP (IN for) (NP (DT a) (NN competition))))) (. .)))"
}

herunterladen

Sie können es von The Stanford Natural Language Inference (SNLI) Corpus herunterladen.

wget https://nlp.stanford.edu/projects/snli/snli_1.0.zip
unzip snli_1.0.zip

Daten lesen

Die Daten werden im json-Format (.jsonl) und im tsv-Format (.txt) gespeichert.

import pandas as pd
df = pd.read_csv("snli_1.0/snli_1.0_train.txt", sep="\t")

References

Recommended Posts

Lesen des SNLI-Datensatzes
Wie man JSON liest
Verwendung des Generators
Wie benutzt man den Dekorateur?
So erhöhen Sie die Achse
So starten Sie die erste Projektion
Lesen Sie die Python-Markdown-Quelle: So erstellen Sie einen Parser
Lesen des CBC-Löserprotokolls (Pulp, Python-Mip)
Wie berechnet man den Autokorrelationskoeffizienten?
Verwendung der Zip-Funktion
Verwendung des optparse-Moduls
Lesen von e-Stat-Subregionsdaten
So erhalten Sie die Python-Version
So erhöhen Sie die Anzahl der Datensatzbilder für maschinelles Lernen
So überschreiben Sie die Ausgabe auf die Konsole
Verwendung des ConfigParser-Moduls
Vorbereiten des Ladens des Originaldatensatzes
So erstellen Sie einen Befehl zum Lesen der Einstellungsdatei mit Pyramide
So zeigen Sie den Fortschrittsbalken an (tqdm)
Verwendung der Spark ML-Pipeline
Wie man pydoc auf Python Interpreter liest
So überprüfen Sie die Version von Django
So lösen Sie das Problem beim Verpacken des Behälters
So aktualisieren Sie den AMP-Cache manuell
[Colab] So kopieren Sie einen riesigen Datensatz
[Linux] Verwendung des Befehls echo
So erhalten Sie eine farbige Ausgabe an die Konsole
So bedienen Sie Linux von der Konsole aus
So greifen Sie von außen auf den Datenspeicher zu
Verwendung des IPython-Debuggers (ipdb)
Lesen von CSV-Dateien mit Pandas
Wie man Problemdaten mit Paiza liest
[Bilderkennung] Lesen des Ergebnisses der automatischen Annotation mit VoTT
So weisen Sie der Matplotlib-Farbleiste mehrere Werte zu
So berechnen Sie die Volatilität einer Marke
Lesen einer CSV-Datei mit Python 2/3
So finden Sie den Bereich des Boronoi-Diagramms
So verwenden Sie MkDocs zum ersten Mal
[Python] So ändern Sie das Datumsformat (Anzeigeformat)
[Python] Wie man Excel-Dateien mit Pandas liest
[Python] Lesen von Daten aus CIFAR-10 und CIFAR-100
So testen Sie den Friends-of-Friends-Algorithmus mit pyfof
Verwendung der Grafikzeichnungsbibliothek Bokeh
So drucken Sie Debug-Meldungen auf der Django-Konsole
So lesen Sie ein Array mit Pythons ConfigParser
Verwendung der Google Cloud Translation API
So bedienen Sie Linux von außen Vorgehensweise
Verwendung der NHK-Programmführer-API
[Algorithmus x Python] Verwendung der Liste
So löschen Sie die von Python ausgegebenen Zeichen
So messen Sie die Leitungsgeschwindigkeit vom Terminal aus
So erhalten Sie die Dateien im Ordner [Python]
Ich las "Wie man ein Hacking Lab macht"
Lesen von Zeitreihendaten in PyTorch
Laden Sie den VGG Face2-Datensatz direkt auf den Server herunter
Tensorufuro, Tensafuro Immerhin welches (wie man Tensorflow liest)
So identifizieren Sie die Systemrufnummer ausyscall