Überblick

Ich habe es vor ungefähr zwei Jahren geschrieben und auf der internen Website belassen, aber ich werde es veröffentlichen, weil es eine große Sache ist.

Es ist eine Übersetzung der folgenden Folie (Es ist eher eine Anpassung als eine Übersetzung, weil die Komposition ganz anders ist?) HJvanVeen's "Feature Engineering" https://www.slideshare.net/HJvanVeen/feature-engineering-72376750

Ich denke, dass diese Folie vollständiger ist als ein kleines Buch, wenn sie umfassend ist. Da es sich jedoch um eine Folie handelt, gibt es viele Teile, die mit einer relativ einfachen Beschreibung schwer zu verstehen sind. Möglicherweise haben Sie Ihre Absicht jedoch falsch verstanden, weil Sie die ursprüngliche Ankündigung nicht gehört haben. Einzelheiten zu den einzelnen Themen finden Sie im Grunde genommen auf einer Ebene, die Sie mit Google leicht verstehen können. Ich habe es nicht geschrieben und ich ergänze es nicht. Ich habe ergänzende Erklärungen nur für diejenigen beigefügt, die nicht viele Informationen haben oder schwer zu verstehen sind.

Obwohl auf dieser Folie verschiedene Themen aufgeführt sind, wird nicht viel über bestimmte Verwendungssituationen sowie Vor- und Nachteile geschrieben. Ich werde es so lassen, wie es diesmal ist, aber ich möchte etwas dagegen tun.

Anmerkung des Herausgebers: In Bezug auf die Implementierung

Die folgenden Module können verwendet werden, wenn das unten in Python eingeführte Feature-Quantity-Engineering durchgeführt wird.

Hinweis: Die Modulinformationen sind möglicherweise etwas veraltet, da sie vor langer Zeit geschrieben wurden.

pandas Es kann für die allgemeine Verarbeitung von Tabellendaten verwendet werden. Get_dummies () scheint jedoch für One-Hot-Encoder verwendbar zu sein, kann jedoch fehlende Werte nicht verarbeiten. Daher ist es meiner Meinung nach besser, einen ~~ Transformator-Klassen-Wrapper für Scikit-Learn zu schreiben. Masu ~~ OneHotEncoder ist einfacher zu bedienen. scikit-learn Verschiedene "Transformatoren" der "Vorverarbeitung". Grundsätzlich kann alles mit den Methoden fit () und transform () konvertiert werden, wodurch der Quellcode leichter lesbar wird. Es ist auch möglich, mit Pipeline zu organisieren. Idealerweise wird es mit dieser Pipeline organisiert, aber es sind nicht viele Klassen implementiert. http://scikit-learn.org/stable/modules/preprocessing.html Zum Beispiel,

~~ Kategoriale Variablen können nicht direkt verarbeitet werden (One-Hot-Encoder muss Label-Encoder beißen) ~~ In der neuesten Version verbessert
Die Normalisierungsverarbeitung umfasst Standardisierung, Max-Min-Abs-Skalierung usw.
Unterstützt Wandler wie Quantiltransformator, Funktionstransformator, Leistungstransformator
Die Vervollständigung fehlender Werte ist nur einfach, z. B. durch einen einfachen Durchschnitt zu ersetzen.

Dieser Bereich hängt auch mit der Geschichte zusammen, die ich zuvor geschrieben habe.

"Damit die Datenanalyse in Python intelligenter funktioniert"

Category Encoders https://contrib.scikit-learn.org/categorical-encoding/ Es werden verschiedene zusätzliche Klassen angeboten, die mit Scikit-Learn verknüpft werden können. Es unterstützt auch "pandas.Series", wird jedoch nicht unter Berücksichtigung der Geschwindigkeit implementiert, sodass die Verarbeitung für große Datenmengen nicht effizient (sehr langsam) ist.

** Nachtrag: Ein kürzlich veröffentlichtes Update macht Scikit-Learn-Contrib, aber schwierig in der Pipeline zu verwenden. Ich denke, es ist einfacher, den Scikit-Learn-Native-Transformator zu verwenden oder selbst zu implementieren. **

Ordinal
One-Hot
Binary
Helmert Contrast
Sum Contrast
Polynomial Contrast
Backward Difference Contrast
Hashing
BaseN
LeaveOneOut
Target Encoding

Mlxtend Ein erweitertes Modul für die Arbeit mit Scikit-Learn https://rasbt.github.io/mlxtend/

Es gibt viele Vorverarbeitungsklassen für die Merkmalsextraktion (die Zusammenarbeit mit der Scikit-Learn-Pipeline wird jedoch nicht sehr berücksichtigt).
Eine Stapel-Scikit-Learn-konforme Klasse ist verfügbar
Eine einfache Feature-Auswahlklasse basierend auf Korrelationsregeln ist ebenfalls verfügbar.
Anstelle der Implementierung ist die Erklärung im Benutzerhandbuch ausführlich hilfreich. ** Detaillierter als die diesmal eingeführte Folie **.

** Nachtrag: Mit einem kürzlich veröffentlichten Update unterstützt scikit-learn auch einfache Lernkurse für Hetero-Ensembles. Usability-Vergleich wurde nicht untersucht **

imbalance-learn Ein Modul, das unter der Annahme erstellt wurde, dass es mit Scikit-Learn funktioniert. Verarbeitung unausgeglichener Daten http://contrib.scikit-learn.org/imbalanced-learn/stable/

Zum Beispiel ist SMOTE implementiert
Unterstützt auch Pipelines (durch imblearn.pipeline.Pipeline anstelle von scicit-learn ersetzen)
Andererseits ** gibt es keine Post-Wahrscheinlichkeits-Kalibrierungsfunktion ** [^ imbpost]

[^ imbpost]: Resampling von unausgeglichenen Daten verzerrt die posterioren Wahrscheinlichkeiten und verursacht (offensichtlich) eine Verzerrung der Vorhersage, wenn sie wie für die Klassifizierung verwendet wird. Dieses Problem und diese Lösung wurden theoretisch gezeigt ([10.1109 /]). SSCI.2015.33](https://doi.org/10.1109/SSCI.2015.33)), aber die Idee dieses Papiers wurde schon oft erwähnt. Takuya Kitazawas persönliche Seite enthält eine Zusammenfassung der Ideen in diesem Bereich als Referenz.

fancyimpute Modul zur Vervollständigung fehlender Werte https://github.com/iskandr/fancyimpute

(Ich habe es nie benutzt)

Hauptgeschichte

Ich werde kurz vor dem Hauptteil hinzufügen

encoding

Ist es eine Konvertierung, insbesondere eins zu eins?

collision

Der konvertierte Wert wird nicht 1: 1 (Kollision)

Konvertierung in kategoriale Features

One-Hot-Konvertierung One-Hot-Codierung

Konvertieren Sie jede Bezeichnung der kategorialen Variablen in eine Dummy-Variable
Besetzt viel Speicher
Sparse-Format ist besser [^ One-Hot-Sparse]

[^ one-hot-sparse]: Übersetzung: Es gibt Implementierungen wie "pandas.get_dummies" und "sklearn.preprocessing.OneHotEncoder", die beide als spärliche Matrix von "scipy" zurückgegeben werden können .: https: // pandas .pydata.org / pandas-docs / stabile / generierte / pandas.get_dummies.html, http://contrib.scikit-learn.org/categorical-encoding/onehot.html, http://scikit-learn.org/stable /modules/generated/sklearn.preprocessing.OneHotEncoder.html ~~ Da sklearn jedoch numpy-kompatibel ist, sind die Eingabedaten nur vom numerischen Typ ~~ Derzeit ist es recht einfach zu verwenden, da es auch den Objekttyp unterstützt.

Hash-Konvertierung der Hash-Konvertierung

Auch als Hashing-Trick bezeichnet, Feature-Hashing [^ Hash-Trick].

[^ Hash-Trick]: In der Originalarbeit (DOI: 10.1145 / 1553374.1553516) ist der Hash-Trick eine Kombination aus Hash-Konvertierung und Kernel-Trick. Es zeigt. In letzter Zeit nennen es viele Leute nur Hash-Konvertierung.

Konvertiert kategoriale Variablen in einen Hash der angegebenen Größe und anschließend in eine Hot-Codierung
Im Gegensatz zu One-Hot wird die Zunahme von Spalten unterdrückt
Kann neue Etiketten für Testdaten aufnehmen

Etikettencodierung Etikettencodierung

Ersetzen Sie jedes Etikett durch eine eindeutige Nummer
Natürlich nimmt die Dimension nicht zu
Nützlich bei Verwendung von (nichtlinearen) Algorithmen vom Typ Entscheidungsbaum
(Linear) Unangemessen für Regression (oft)

Count Conversion Count Codierung

Ersetzen Sie jedes Etikett durch die Häufigkeit des Auftretens dieses Etiketts in den Trainingsdaten
Die Abmessung nimmt nicht zu
Gültig für lineare und nichtlineare [^ lineare Zählung]
Kann zu empfindlich für Ausreißer sein
(Das obige Problem) Die Empfindlichkeit kann durch logarithmische Umwandlung verringert werden.
Setzen Sie die Bezeichnung, die niemals erscheint, auf "1"
Verschiedene Beschriftungen können nach der Konvertierung denselben Wert haben

Beachten Sie, dass im Fall eines linearen Modells die Zielvariable und die Anzahl eine lineare Korrelation aufweisen müssen, bevor sie gültig sind.

Label-Count-Codierung Label-Count-Codierung

Konvertieren Sie die Zählcodierung weiter in die Frequenzreihenfolge
Wirksam sowohl für lineare als auch für nichtlineare [^ yuukou]
Nicht empfindlich gegenüber Ausreißern
Nicht kollidieren [^ tie]
Seien Sie vorsichtig, wenn Sie mehrere verschiedene Variablen konvertieren (da diese zu Konflikten neigen, auch wenn die ursprünglichen Variablen unterschiedlich sind).
Lassen Sie uns gute Dinge tun (in solchen Fällen für jede Variable)

[^ yuukou]: Übersetzt von: Wie üblich bedeutet es "gültig (manchmal)" [^ tie]: Was tun bei Ranking-Bindungen?

Zielkonvertierung Zielcodierung

Berechnen Sie die relative Häufigkeit (Prozent) der Zielvariablen, anstatt die Häufigkeit für jede Kategorie wie bei der Zählcodierung zu verwenden.
Es ist wichtig, eine Überanpassung zu vermeiden!
Verwenden Sie eine Gegenprüfung usw., um eine Überanpassung zu vermeiden
Wenn es viele Nullen gibt, sollten Sie eine Interpolation mit Glättung in Betracht ziehen.
Kann Geräusche hinzufügen, um eine Überanpassung zu verhindern
Wirksam sowohl linear als auch nichtlinear, wenn es gut verwendet wird

Kategorieeinbettung Kategorieeinbettung

Dichte Einbettung mit neuronalem Netz
Kopieren Sie kategoriale Variablen, um Funktionen im euklidischen Raum einer beliebigen Dimension zu approximieren
Schnelles Lernen
Geringer Speicheraufwand
Bessere Leistung als One-Hot [^ Embed]

[^ embedded]: Wie üblich gibt es Fälle, in denen es sich nicht um eine universelle Eigenschaft handelt (arXiv: 1604.06737). Es ist effektiv bei "komplizierterer Struktur". Situationen wie das sogenannte Schweizer Rollenproblem.

NaN-Umwandlung NaN-Codierung

Der Wert von NaN enthält Informationen
Wenn ein NaN-Wert vorhanden ist, erstellen Sie eine Dummy-Variable, die diese Informationen enthält.
Seien Sie vorsichtig, da es leicht zu überpassen ist!
Nur in Situationen verwenden, in denen NaN sowohl in Trainingsdaten als auch in Testdaten enthalten ist (und wenn es nach Lebenslauf aufgeteilt ist).

Polynomcodierung

So konvertieren Sie Interaktionsterme zwischen kategorialen Variablen
XOR kann ohne einen Interaktionsterm in einem linearen Modell nicht dargestellt werden
Polygonaler Kernel kann das XOR-Problem lösen
Da der Feature-Space explodiert, verwenden Sie FS [^ fs], Hashing, VW [^ vw] usw. zusammen.

** Übersetzung **: Polygonale Transformation bedeutet die Verwendung einer Kombination von kategorialen Variablen als Merkmalsgröße. Es können zwei oder mehr Paare oder drei oder mehr Kombinationen sein. Kategorie Die einmalige Konvertierung von cal-Variablen führt häufig zu sehr großen Dimensionen. Wenn Sie also eine Kombination hinzufügen, tritt eine "Kombinationsexplosion" auf. Wenn viele kategoriale cal-Variablen vorhanden sind, umfasst das Lernen die polymorphe Transformation Sie können den Algorithmus Factorlization Machine (10.1109 / ICDM.2010.127) verwenden. Würde

[^ fs]: Möchten Sie es Funktionsauswahl nennen? [^ vw]: Da bin ich mir nicht sicher. VowpalWabbit Algorithmus zur Funktionsauswahl?

Erweiterungskonvertierung Erweiterungscodierung

Zerlegen Sie eine kategoriale Variable in mehrere Bezeichnungen
Unorganisierte Variablen wie Informationen zum Browser-Benutzeragenten und Informationen zur Betriebssystemversion

Konsolidierungscodierung

Vielmehr wird es aufgerollt, ohne in 1 zu 1 konvertiert zu werden.
Wirksam bei Rechtschreibfehlern, Notationsschwankungen und Textdaten, in denen offizielle Namen und Abkürzungen gemischt sind.
Echte Daten, freier Speicherplatz ist besonders chaotisch

Umwandlung in numerische Merkmale

Konvertierung numerischer Informationen wie kontinuierlicher Variablen und Zählungen, die für den Algorithmus leichter zu erkennen sind als kategoriale Variablen.

Rundung Rundung / Binning Binning

Irreversible Transformation, wenn Sie die Merkmale klarer ausdrücken möchten
Zahlen mit zu vielen Ziffern können manchmal nur Rauschen sein
Abgerundete Variablen können auch als kategoriale Variablen behandelt werden
Vor dem Runden gibt es auch eine Hand namens logarithmische Konvertierung
Es ist notwendig, die optimale Behälterbreite auf praktische Weise zu bestimmen. Zum Beispiel den Teilungspunkt
Binning kann möglicherweise Werte in dem Bereich erfolgreich konvertieren, die nicht in den Trainingsdaten enthalten sind

Skalierung

Konvertieren numerischer Variablen in einen bestimmten Bereich.

Z-Skalierung (Standardisierung)
Min-Max scaling[^minmax] [^ minmax]: Wird auch als Normalisieren bezeichnet. Der Bereich ist 0-1.
root scaling
log scaling

Interpolation fehlender Werte Imputation

Im Durchschnitt
Im Median (mehr Augenlider im Vergleich zu Ausreißern)
Nehmen wir an, wir haben nichts gesehen (verlängern Sie das Problem) [^ paarweise]
Geschätzt nach Modell. Beachten Sie, dass der geschätzte Wert verzerrt ist [^ Schätzung]

[^ paarweise]: Übersetzung: Paarweise Entfernung? [^ Schätzung]: Übersetzung: Tobit-Modell oder Mehrfachzuweisungsmethode?

** Übersetzung **: Ein Algorithmus, der fehlende Werte nicht verarbeiten kann, funktioniert möglicherweise nur, aber die drei wichtigsten Methoden sind im Allgemeinen nicht gültig. Das vierte "Modell" In "Schätzen mit" wird "Beachten Sie, dass die Verzerrung des geschätzten Werts addiert wird", aber es ist auch klar, dass die Methode der Interpolation mit dem Durchschnittswert oder dem Medianwert auch der Verteilung der Merkmalsgrößen ein willkürliches Modell auferlegt. Wenn diese Methoden effektiv sind, kann man sagen, dass beispielsweise auch eine Methode zur einheitlichen Umwandlung fehlender Werte in Null effektiv ist.

Interaktionen

Zähme so: Addition / Subtraktion, Multiplikation, Division
Verwenden wir: Sortieren nach Funktionsbedeutung usw.
Hören wir auf: Menschliche Intuition [^ intui]. Unerwartete Kombinationen können sinnvoll sein

[^ intui]: Es ist wie ein "Glaube"

Nichtlinearer Algorithmus für linearen Abfall

So verbessern Sie die Anpassung an das lineare Modell durch nichtlineare Transformation [^ nonlin].

Polygonkernel
leafcoding
Genetischen Algorithmus
Lokale lineare Einbettung, Spektrumeinbettung, t-SNE

** Übersetzung **: Es gibt keine spezifische Erklärung für ** Blattcodierung **, aber möglicherweise wird ein Entscheidungsbaumalgorithmus wie eine zufällige Gesamtstruktur angewendet, und anstatt den vorhergesagten Wert zu verwenden, werden Informationen darüber angezeigt, welcher Blattknoten gefallen ist. Zufällige Gesamtstrukturen können auch komplexe Strukturen lernen. Daher wird vorgeschlagen, dass Blattknoteninformationen möglicherweise nichtlineare Funktionen in lineare Informationen umwandeln können. Ich weiß nicht, wer es ist, aber zum Beispiel 10.1145 / 2648584.2648589 hat ein Beispiel für seine Verwendung. [^ nonlin]: Die meisten der hier aufgeführten Methoden sind in Bezug auf die Dimension rechenintensiv oder explosionsartig rechenintensiv, so dass viele bei vielen Variablen unpraktisch sind. Für die Geschichte dieses Bereichs kann beispielsweise Akaho "Multivariate Kernel-Analyse" als Referenz verwendet werden.

Verwenden von Statistiken für jede Zeile als Features

Anzahl der fehlenden Werte
Anzahl der Nullen
Anzahl der negativen Werte
Durchschnittliche maximale und minimale Verzerrung usw.

Zeitliche Variablen

Variablen, die Datumsangaben usw. darstellen, müssen häufig bestätigt werden. Hier treten wahrscheinlich Fehler auf, die jedoch häufig erheblich verbessert werden können.

Kreistransformation: Ersetzen Sie Kreiszahlen wie Wochen- und Monatsdaten durch zwei zyklische Variablen wie Kreiskoordinaten.
Trends extrahieren: Wenn beispielsweise der Gesamtkaufbetrag auf den Wochenendwert, den Monatsendwert usw. festgelegt ist, kann zwischen Kunden mit steigendem Kaufbetrag und Kunden mit abnehmendem Kaufbetrag unterschieden werden, auch wenn der Gesamtbetrag gleich ist.
Entfernung zu Großveranstaltungen

Erstellen Sie eine Feature-Menge, die angibt, wie viele Tage vor / nach dem Urlaub

** Übersetzung **: Obwohl vom Autor nicht erwähnt, gibt es einen klassischen Weg der "zirkulären Transformation", um die endliche Fourier-Klasse (dreieckige Polynomexpansion) zu verwenden, die zur Approximation periodischer Funktionen verwendet wird. Zum Beispiel Prophet So wird Periodizität ausgedrückt (wenn Sie den Propheten nicht kennen, was ich geschrieben habe und seinen Link ) Es gibt viele andere Techniken, die der Prophet leicht selbst implementieren kann, was beim Umgang mit Zeitvariablen hilfreich sein kann. Natürlich ist es einfacher der Tag, der Tag im Januar, das Jahr. In einigen Fällen können Informationen wie die Anzahl der Tage des Tages durch One-Hot-Conversion als kategoriale Variable ausgedrückt werden.

Räumliche Variablen

Räumlicher Standort: GPS-Koordinaten, Städte, Länder / Regionen, Adressen usw.

Kriging [^ kriging]
Clustering mit der K-Mean-Methode
Verwenden Sie unveränderte Rohdaten für Längen- und Breitengrade
Konvertieren Sie den Standort der Stadt in Breiten- und Längengrade
Postleitzahl im Adresstext
Entfernung zur Hub City

Kleinstädte stehen unter dem Einfluss der Kultur der nahe gelegenen Großstädte
Telefonnummern können sich auf die geografische Entfernung beziehen

Einige Standortinformationen sind verdächtig

Unmögliche Bewegungsgeschwindigkeit
Bleiben Sie an einem anderen Ort als zu Hause oder auf Ihrer Reiseroute
Bleiben Sie nie wieder am selben Ort

[^ kriging]: Übersetzung: Möchten Sie das tun? Ich denke, es ist in Ordnung, es zu versuchen, indem Sie dem Funktionsbetrag ein Variogramm hinzufügen.

Exploration Exploration

Überprüfen Sie die Daten und finden Sie Ideen für Datenqualität, Ausreißer, Rauschen und Merkmalsextraktion.

Arbeiten Sie mit Konsole, Notebook oder Pandas
Überprüfen Sie dies anhand einfacher beschreibender Statistiken
Siehe die Korrelation mit der Zielvariablen

Iteration / Debugging

Da das Feature-Quantity-Engineering eine Arbeit ist, die viele Male wiederholt wird, sollten Sie den Arbeitsablauf so gestalten, dass er schnell wiederholt werden kann.

"Ungefähr geradliniges Debuggen" Zwischeninformationen werden als Pseudoprotokoll ausgegeben und während der Verarbeitung bestätigt
Verwenden Sie Tools für eine schnellere Recherche
Wisse, dass es mehr Ideen gibt, die scheitern als Ideen, die funktionieren

Etikettentechnik

Die Label- / Ziel- / Zielvariable selbst kann als Merkmalsgröße verwendet werden und umgekehrt.

Log / Exponential-Konvertierung
Quadratische Umwandlung
Box-Cox-Konvertierung
Bewertung von binären Variablen in Regressionsprobleme
Trainieren Sie mit objektiven Variablen, um zukünftige Funktionen vorherzusagen, die nicht mit Testdaten verwendet werden können

** Übersetzung **: Dieser Artikel ist zu vage, um ihn zu verstehen, aber ich denke, er bezieht sich auf drei Haupttechniken.

Die erste Technik besteht darin, die Anpassung durch Transformation der Zielvariablen zu verbessern. Beispielsweise ist ein einfaches lineares Regressionsmodell tendenziell weniger geeignet, wenn die Verteilung asymmetrisch und verzerrt ist, z. B. logarithmisch oder quadratisch. Möglicherweise passt das lineare Regressionsmodell auch besser, wenn Sie die Zielvariable in transformieren und symmetrisch anpassen. Ein typisches Beispiel ist das ** Generalized Linear Model ** (GLM).

In der zweiten Erwähnung wird erwähnt, dass das Hinzufügen einer auf andere Weise transformierten Zielvariablen zu einem solchen Modell möglicherweise sogar noch besser ist, da die Zielvariable als Merkmalsgröße verwendet wird. Es kann nicht für die tatsächliche Vorhersage verwendet werden, aber es kann verwendet werden, um zu überprüfen, wo die Ursache für die schlechte Anpassung liegt, mit anderen Worten, welche Tendenz die Zielvariable hat, die von dem aktuell getesteten Modell nicht erfasst wird. Mit anderen Worten, wenn wir ein solches Modell mit einem Resthistogramm oder einem qq-Diagramm überprüfen, können wir einen Hinweis erhalten, dass wir die Konvertierungsmethode der in der ersten Technik erwähnten Zielvariablen verbessern können. Der Autor ist in der Statistik. Ich denke, es wird eine Methode erwähnt, die als Restdiagnose bezeichnet wird.

Der dritte ist der Inhalt, der in den letzten beiden "Zweiwertigen Variablen ~" und "Kann nicht in Testdaten verwendet werden ~" erwähnt wird. Wie der Name schon sagt, gibt es nur zwei Werte für binäre Variablen, daher gibt es nur wenige Informationen. Es wird gesagt, dass der Wert, zu dem diese binäre Variable wird, durch eine unbekannte Variable bestimmt wird ** latentes Variablenmodell * Es wird angenommen, dass eine unsichtbare Wahrscheinlichkeit dahinter steckt, wie z. B. *. Bei der Bewertung wird eine Variable erstellt, die die Wahrscheinlichkeit darstellt, die dem Wert einer binären Variablen entspricht, und ** das Klassifizierungsproblem durch ein Regressionsproblem für die Bewertungsvariable ersetzt. Dies bedeutet **, da diese Bewertungsvariable nicht ohne nachzudenken erstellt werden kann (wie üblich entspricht die Auswahl nur des Modells, das am besten zu den Daten passt, der Lösung eines normalen Klassifizierungsproblems). Es wird notwendig sein, Informationen darüber zu erhalten, wie die Wahrscheinlichkeit von außerhalb der Daten bestimmt wird, sogenanntes "Domänenwissen". "Kann nicht in Testdaten verwendet werden ~" dient zur Vorhersage des zukünftigen Merkmalswerts. Dies bedeutet, ein anderes Vorhersagemodell mit anderen Merkmalsgrößen und Zielvariablen als Merkmalsgrößen zu erstellen. Diese können auch als ** fehlende Wertekomplementierung im weiteren Sinne ** angesehen werden. Diese beiden Techniken verwenden ein anderes Vorhersagemodell. Es braucht Zeit, um es zu machen, aber natürlich kann eine solche Methode effektiv sein.

Für die Verarbeitung natürlicher Sprache

** Übersetzung **: Dieser Abschnitt ist eine sehr rudimentäre Liste von Geschichten ohne spezifische Erklärungen. Sie sollten daher ein anständiges Lehrbuch lesen (z. B. Coronas Reihe zur Verarbeitung natürlicher Sprache).

Sie können dieselben Ideen wie kategoriale Funktionen verwenden
Deep Learning (Auto-Encoder / Self-Encoder) untergräbt diesen Bereich, aber flaches Lernen mit ausgereiften Funktionen ist immer noch wettbewerbsfähig.
Hohe Datenverknappung führt zum sogenannten "Fluch der Dimension"
Es gibt viele Möglichkeiten für das Feature Quantity Engineering (beachten Sie, dass das Folgende eine englische Geschichte ist)

Reinigung:

Kleinbuchstaben Kleinbuchstaben
Unidecode Ersetzen Sie Zeichen mit Akzent durch ASCII-Zeichen
Entfernen von nicht alphanumerischen Zeichen Entfernt alphanumerische Zeichen (oder entfernt Verträge usw.)
Reparieren des Codierungsproblems behoben: Zeichen voller Breite werden auf halbe Breite reduziert, seltsame Leerzeichen zwischen Zeichen werden entfernt usw.

Tokenisieren Tokenisieren

Kodierung von Satzzeichen Umwandlung von Verträgen * token-grams * skip-grams
Zeichen-Gramm Erstellen von n-Gramm auf Zeichenbasis

Derjenige, der nur den Anfang und das Ende der Anhänge hinterlässt, bringt Char-Gramme an
Entfernung

Entfernen von Stoppwörtern
Entfernen seltener / sehr häufiger Werke Entfernen seltener und häufiger Wörter

Wortstamm

Hacken Lassen Sie nur die ersten n Buchstaben eines Wortes
Rechtschreibkorrektur Korrektur des Notationsschüttelns
Stemming Lassen Sie nur den Stiel
Lemmannisierung Finden Sie einen semantischen Stamm?

Informationen geben

Dokumentfunktionen Dokumentweite Informationen wie Anzahl der Leerzeichen / Tabulatoren, Anzahl der Zeilen, Anzahl der Zeichen usw.
Die Vervollständigung von Wörtern zum Einfügen von Entitäten ergänzt Wörter, um die Bedeutung des Textes zu verdeutlichen
Gewähren Sie die logische Struktur von Parse-Tree-Anweisungen: Subjekt, Objekt, Verb ...
Lesestufe Dokumentlesestufe (?)

Ähnlichkeit * word2vec, glove/doc2vec

Token Smilarity String-Ähnlichkeit + Levenstein?Hamming/Jaccard dist.

nächster Nachbar Methode des nächsten Nachbarn
- TF-IDF

Termhäufigkeit Häufigkeit der in einem Dokument angezeigten Token für alle Dokumente Reduziert die Verzerrung aufgrund unterschiedlicher Dokumentlängen
Inverse Dokumenthäufigkeit Inverse Dokumenthäufigkeit: Die Umkehrung der Häufigkeit des Auftretens von Token pro Dokument. Reduzierte häufige Token-Verzerrung
TF-IDF Sie können wichtige Token identifizieren und weniger wichtige ausschließen.

Dimensionsreduzierung

Hauptkomponentenanalyse (PCA) / Singularitätszerlegung (SVD): Für 50-100 Dimensionen [^ pcanlp]
Latent Diricle Allocation Method (LDA): SVD zu TF-IDF
Latent Semantic Analysis (LSA): Erstellen von Themenvektoren

Verlassen Sie sich auf ein externes Modell

Semantische Analyse: Positive / negative Informationen im Text der Emotionsanalyse
Themenmodell

[^ pcanlp]: Übersetzung: Die Basis für diese Nummer ist unbekannt

Neuronales Netz & tiefes Lernen

Einige Leute behaupten, dass Neural Net das gesamte Feature-Engineering von der Wiege bis zum Friedhof automatisch durchführt [^ dl]
Ist die Extraktion von Merkmalsmengen dann nicht mehr bedeutungslos?
Nein! Lassen Sie uns unsere Perspektive auf Architekturtechnik ändern [^ mean-feature]
Hinweise, die nicht mit dem Vorhandensein oder Fehlen neuronaler Netze zusammenhängen: Im Bereich der Bilderkennung, Merkmalsextraktion mit HOG, SIFT, Aufhellung, Störung, Bildpyramide, Rotation, Z-Konvertierung, logarithmische Konvertierung, Frame-Gramm, externe semantische Informationen usw. (Natürlich ist es keine Aufgabe, die nur durch tiefes Lernen erledigt werden kann **)

[^ dl]: HAHAHA Heute ist kein Aprilscherz! [^ mean-feature]: Ist nicht ein Aspekt der Merkmalsextraktion ein Prozess, um das Problem der ungünstigen Bedingungen zu verbessern und die Optimierungsberechnung überhaupt zu stabilisieren?

Leakage/Golden Features

Merkmalsextraktion hilft, Leckage zu nutzen [^ Leckage]
Reverse Engineering

MD5-Hash mit Regenbogentabelle entschlüsseln
Stellen Sie die Worthäufigkeit von TF-IDF wieder her
Codieren Sie eine Folge von Beispieldatensätzen
Erstellungsdatum der Datei codieren

Regel Mining

Finden Sie eine einfache Codierungsregel für Funktionen

[^ Leckage]: Leckage ist eine Methode zur Verbesserung der Anpassung von Testdaten durch Verwendung von Informationen, die zum Zeitpunkt des Lernens ursprünglich nicht verfügbar waren. Die unten aufgeführten Techniken für Reverse Engineering und Rule Mining können in jeder Situation eingesetzt werden.

Epigraph

Es wird an verschiedenen Stellen eingefügt, aber ich werde es hier zusammenfassen.

Andrew Ng "Das Buch über die Anwendung des maschinellen Lernens, das sich nur schwer erfassen lässt, Zeit verschwendet und über Fachwissen im Bereich Feature Engineering verfügt." Domingos "Maschinelles Lernen hat sowohl Erfolge als auch Misserfolge. Was ist der Unterschied? Einfach ausgedrückt, der wichtigste Faktor sind die verwendeten Funktionen." Locklin: "Features Engineering ist etwas anderes, das nicht ausreicht, um in gelesenen Papieren oder Lehrbüchern erwähnt zu werden, aber es ist absolut notwendig für den Erfolg des maschinellen Lernens ... Viele erfolgreiche Beispiele für maschinelles Lernen sind tatsächlich Features. Zurück zum Engineering " Miel: "Machen Sie die Eingabedaten für den Algorithmus verständlich" Hal Daume III "Was die meisten Artikel sagen: Feature Engineering ist schwierig und zeitaufwändig, aber wir haben in diesem achtseitigen Artikel einen neuen Weg für neuronale Netze gefunden, der dasselbe tun kann. Es steht geschrieben" Francois Chollet "Um ein gutes Modell zu entwickeln, muss die ursprüngliche Idee bis kurz vor Ablauf der Frist immer wieder wiederholt werden. Es besteht immer das Potenzial, das Modell zu verbessern. Das endgültige Modell befasst sich normalerweise zuerst mit dem Problem. Es unterscheidet sich fast von den damaligen Aussichten, da Apriori-Zeitpläne den Konflikt mit der experimentellen Realität im Prinzip nicht überleben können. "

[PYTHON] Hinweis "Features Engineering" von HJvanVeen