[PYTHON] Konvertieren Sie Sätze mit gensim in Vektoren

Ich habe das Kapitel Von Strings zu Vektoren ausprobiert.

Der Stopplistenteil schließt unnötige Wörter aus.

Was ist ein Stoppwort? Wörter, die vom Suchziel ausgeschlossen werden müssen, um die Suchgenauigkeit zu verbessern, da zu viele Suchvorgänge erforderlich sind. Funktionswörter wie Hilfswörter und Hilfsverben (wie "ha", "no", "desu" und "masu" auf Japanisch und "the", "of", "is" auf Englisch) sind fast immer anwendbar. ..

Siehe Hatena

`sample.py`



import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

from gensim import corpora, models, similarities

documents = ["Human machine interface for lab abc computer applications",
          "A survey of user opinion of computer system response time",
          "The EPS user interface management system",
          "System and human system engineering testing of EPS",
          "Relation of user perceived response time to error measurement",
          "The generation of random binary unordered trees",
          "The intersection graph of paths in trees",
          "Graph minors IV Widths of trees and well quasi ordering",
          "Graph minors A survey"]

          
# remove common words and tokenize
stoplist = set('for a of the and to in'.split())
texts = [[word for word in document.lower().split() if word not in stoplist]
  for document in documents]

# remove words that appear only once
from collections import defaultdict
frequency = defaultdict(int)

# print(texts)

for text in texts:
	for token in text:
 		frequency[token] += 1

texts = [[token for token in text if frequency[token] > 1]
for text in texts]

# from pprint import pprint   # pretty-printer
# pprint(texts)

dictionary = corpora.Dictionary(texts)
# print(dictionary)

#Ausgabe mit id
# print(dictionary.token2id)

#In Satzvektor konvertieren
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)

Offizielles Tutorial https://radimrehurek.com/gensim/tut1.html

Recommended Posts

Konvertieren Sie Sätze mit gensim in Vektoren

Konvertieren Sie 202003 bis 2020-03 mit Pandas

Konvertieren Sie .ipynb in .html (mit BatchFile)

Konvertieren Sie die Liste mit Python in DataFrame

Konvertieren Sie PDF in Image mit ImageMagick

Konvertieren Sie Memos sofort mit Python 2to3

Konvertieren Sie mit pdfplumber von PDF in CSV

Konvertieren Sie Zeichenketten mit RoBERTa in Merkmalsmengen

Konvertieren Sie Excel-Daten mit Python in JSON

Konvertiere Hiragana mit Python (Beta) in Romaji

Konvertieren Sie PDF-Dateien mit GIMP in PNG-Dateien

Konvertieren Sie ein Array (struct) mit golang in json

Konvertieren Sie chinesische Zahlen mit Python in arabische Zahlen

Beispiel für die Wavelet-Konvertierung von Bildern in Python

Zum HSV konvertieren

DICOM zu PNG Konvertierung mit aufsteigend und absteigend

Konvertieren Sie Daten mit Form (Anzahl der Daten, 1) in (Anzahl der Daten,) mit numpy.

Konvertieren Sie PDF in Bilder (JPEG / PNG) mit Python

Konvertieren Sie PDFs mit Python in Massenbilder

Konvertieren Sie mp4 in mp3 mit ffmpeg (eingebettete Thumbnail-Version)

Konvertieren Sie die SVG-Datei mit Python in png / ico

Konvertieren Sie Windows-Epochenwerte mit Python in das Datum

Konvertieren Sie Jupyter-Notizbücher ganz einfach in Blogs mit Fastpages

Konvertieren von (32,32,3) in einen 4-dimensionalen Tensor (1,32,32,1) mit ndarray-Typ

Konvertieren Sie die Zeichenfolge mit Python in ein zeichenweises Listenformat

Ich möchte ein Bild mit Lollipop in WebP konvertieren

0 Konvertieren Sie nicht ausgefülltes Datum in Datums- / Uhrzeittyp mit regulärem Ausdruck

Konvertiere Kanji in Kana

Konvertieren Sie eine Textdatei mit hexadezimalen Werten in eine Binärdatei

So konvertieren Sie horizontal gehaltene Daten mit Pandas in vertikal gehaltene Daten

So konvertieren Sie ein Klassenobjekt mit SQLAlchemy in ein Wörterbuch

Einfache Generierung stilisierter Pakuri-Sätze mit MeCab + Gensim

Jupyter in py umwandeln

Konvertiere keras-yolo3 in onnx

Konvertieren Sie das Bild in .zip mit Python in PDF

So konvertieren Sie eine JSON-Datei mit Python Pandas in eine CSV-Datei

Dikt in Array konvertieren

PyInstaller-Memorandum Konvertieren Sie Python [.py] in [.exe] mit 2 Zeilen

Konvertieren Sie json in Excel

Konvertieren Sie numerische Variablen mit Pandas in kategoriale Variablen, indem Sie einen Schwellenwert festlegen

Konvertieren Wählen Sie die von Postgre erhaltene Abfrage mit Gehe zu JSON

Konvertieren Sie Bilder mit PIL (Python Imaging Library) in Sepia.

Konvertieren Sie verstümmelte gescannte Bilder mit Pillow und PyPDF in PDF

Ich habe versucht, durch maschinelles Lernen Sätze in den XX-Stil umzuwandeln

Konvertieren Sie Videos mit ffmpeg + python + opencv in Schwarzweiß

Versuchen Sie, den Boden durch Rekursion herauszufordern

Stellen Sie mit Python eine Verbindung zu BigQuery her

Konvertieren Sie eine hexadezimale Zeichenfolge in eine Binärzeichenfolge

[Python] Datum in Zeichenfolge konvertieren

[gensim] Verwendung von Doc2Vec

Konvertieren Sie numpy int64 in python int

Konvertieren Sie HTML in eine Textdatei

Stellen Sie mit Python eine Verbindung zu Wikipedia her

Post to Slack mit Python 3

Stellen Sie mit GO eine Verbindung zu Postgresql her

Einführung in RDB mit sqlalchemy Ⅰ

Wie aktualisiere ich mit SQLAlchemy?

Um gym_torcs mit ubutnu16 auszuführen