[PYTHON] Konvertieren Sie Sätze mit gensim in Vektoren

Ich habe das Kapitel Von Strings zu Vektoren ausprobiert.

Der Stopplistenteil schließt unnötige Wörter aus.

Was ist ein Stoppwort? Wörter, die vom Suchziel ausgeschlossen werden müssen, um die Suchgenauigkeit zu verbessern, da zu viele Suchvorgänge erforderlich sind. Funktionswörter wie Hilfswörter und Hilfsverben (wie "ha", "no", "desu" und "masu" auf Japanisch und "the", "of", "is" auf Englisch) sind fast immer anwendbar. ..

sample.py



import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

from gensim import corpora, models, similarities

documents = ["Human machine interface for lab abc computer applications",
          "A survey of user opinion of computer system response time",
          "The EPS user interface management system",
          "System and human system engineering testing of EPS",
          "Relation of user perceived response time to error measurement",
          "The generation of random binary unordered trees",
          "The intersection graph of paths in trees",
          "Graph minors IV Widths of trees and well quasi ordering",
          "Graph minors A survey"]

          
# remove common words and tokenize
stoplist = set('for a of the and to in'.split())
texts = [[word for word in document.lower().split() if word not in stoplist]
  for document in documents]

# remove words that appear only once
from collections import defaultdict
frequency = defaultdict(int)

# print(texts)

for text in texts:
	for token in text:
 		frequency[token] += 1

texts = [[token for token in text if frequency[token] > 1]
for text in texts]

# from pprint import pprint   # pretty-printer
# pprint(texts)

dictionary = corpora.Dictionary(texts)
# print(dictionary)

#Ausgabe mit id
# print(dictionary.token2id)

#In Satzvektor konvertieren
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)


Offizielles Tutorial https://radimrehurek.com/gensim/tut1.html

Recommended Posts

Konvertieren Sie Sätze mit gensim in Vektoren
Konvertieren Sie 202003 bis 2020-03 mit Pandas
Konvertieren Sie .ipynb in .html (mit BatchFile)
Konvertieren Sie die Liste mit Python in DataFrame
Konvertieren Sie PDF in Image mit ImageMagick
Konvertieren Sie Memos sofort mit Python 2to3
Konvertieren Sie mit pdfplumber von PDF in CSV
Konvertieren Sie Zeichenketten mit RoBERTa in Merkmalsmengen
Konvertieren Sie Excel-Daten mit Python in JSON
Konvertiere Hiragana mit Python (Beta) in Romaji
Konvertieren Sie PDF-Dateien mit GIMP in PNG-Dateien
Konvertieren Sie ein Array (struct) mit golang in json
Konvertieren Sie chinesische Zahlen mit Python in arabische Zahlen
Beispiel für die Wavelet-Konvertierung von Bildern in Python
Zum HSV konvertieren
DICOM zu PNG Konvertierung mit aufsteigend und absteigend
Konvertieren Sie Daten mit Form (Anzahl der Daten, 1) in (Anzahl der Daten,) mit numpy.
Konvertieren Sie PDF in Bilder (JPEG / PNG) mit Python
Konvertieren Sie PDFs mit Python in Massenbilder
Konvertieren Sie mp4 in mp3 mit ffmpeg (eingebettete Thumbnail-Version)
Konvertieren Sie die SVG-Datei mit Python in png / ico
Konvertieren Sie Windows-Epochenwerte mit Python in das Datum
Konvertieren Sie Jupyter-Notizbücher ganz einfach in Blogs mit Fastpages
Konvertieren von (32,32,3) in einen 4-dimensionalen Tensor (1,32,32,1) mit ndarray-Typ
Konvertieren Sie die Zeichenfolge mit Python in ein zeichenweises Listenformat
Ich möchte ein Bild mit Lollipop in WebP konvertieren
0 Konvertieren Sie nicht ausgefülltes Datum in Datums- / Uhrzeittyp mit regulärem Ausdruck
Konvertiere Kanji in Kana
Konvertieren Sie eine Textdatei mit hexadezimalen Werten in eine Binärdatei
So konvertieren Sie horizontal gehaltene Daten mit Pandas in vertikal gehaltene Daten
So konvertieren Sie ein Klassenobjekt mit SQLAlchemy in ein Wörterbuch
Einfache Generierung stilisierter Pakuri-Sätze mit MeCab + Gensim
Jupyter in py umwandeln
Konvertiere keras-yolo3 in onnx
Konvertieren Sie das Bild in .zip mit Python in PDF
So konvertieren Sie eine JSON-Datei mit Python Pandas in eine CSV-Datei
Dikt in Array konvertieren
PyInstaller-Memorandum Konvertieren Sie Python [.py] in [.exe] mit 2 Zeilen
Konvertieren Sie json in Excel
Konvertieren Sie numerische Variablen mit Pandas in kategoriale Variablen, indem Sie einen Schwellenwert festlegen
Konvertieren Wählen Sie die von Postgre erhaltene Abfrage mit Gehe zu JSON
Konvertieren Sie Bilder mit PIL (Python Imaging Library) in Sepia.
Konvertieren Sie verstümmelte gescannte Bilder mit Pillow und PyPDF in PDF
Ich habe versucht, durch maschinelles Lernen Sätze in den XX-Stil umzuwandeln
Konvertieren Sie Videos mit ffmpeg + python + opencv in Schwarzweiß
Versuchen Sie, den Boden durch Rekursion herauszufordern
Stellen Sie mit Python eine Verbindung zu BigQuery her
Konvertieren Sie eine hexadezimale Zeichenfolge in eine Binärzeichenfolge
[Python] Datum in Zeichenfolge konvertieren
[gensim] Verwendung von Doc2Vec
Konvertieren Sie numpy int64 in python int
Konvertieren Sie HTML in eine Textdatei
Stellen Sie mit Python eine Verbindung zu Wikipedia her
Post to Slack mit Python 3
Stellen Sie mit GO eine Verbindung zu Postgresql her
Einführung in RDB mit sqlalchemy Ⅰ
Wie aktualisiere ich mit SQLAlchemy?
Um gym_torcs mit ubutnu16 auszuführen