Algorithmen für maschinelles Lernen studieren Wenn ich "Group Knowledge Programming" lese (ISBN-13: 978-4873113647) Ich war mir nicht sicher, was die Formeln im Programm taten Notieren Sie sich, was Sie nachgeschlagen haben.
~~ Es war eine schwere Mathematik, also wenn ich sie leicht gelesen hätte, wäre ich ihr vielleicht nicht gefolgt ... ~~
Nach langer Zeit habe ich wieder Statistik studiert Es kann viele Fehler geben. Ich würde es begrüßen, wenn Sie darauf hinweisen könnten.
――Dieser Abschnitt enthält eine Zusammenfassung der Beurteilung von E-Mail-Spam
Algorithmus ⇒ Der Autor hat auf github veröffentlicht. Ich werde eine Notiz über die Punkte hinterlassen, die persönlich schwer zu verstehen waren ("(1)" und "(2)" und "(3)" unten).
def fisherprob(self,item,cat):
p=1
features=self.getfeatures(item)
for f in features:
p*=(self.weightedprob(f,cat,self.cprob))
# (1)・ ・ ・ Was wird fscore berechnet?
fscore=-2*math.log(p)
return self.invchi2(fscore,len(features)*2)
# (2)・ ・ ・ Was berechnet invchi2?
def invchi2(self,chi, df):
# (3)・ ・ ・ Kann die Umkehrfunktion berechnet werden?
m = chi / 2.0
sum = term = math.exp(-m)
for i in range(1, df//2):
term *= m / i
sum += term
return min(sum, 1.0)
(1) Was wird "fscore" berechnet?
Gemäß Fischermethode multiplizieren Sie mit "k" unabhängigen "p-Wert" (wie Wahrscheinlichkeit) und "log" Wenn Sie "nehmen und mit" -2 "multiplizieren, können Sie den" p-Wert "der χ-Quadrat-Verteilung mit dem Freiheitsgrad" 2k "berechnen. ―― ~~ Ich konnte dem Beweis noch nicht folgen ~~
Informationen zum p-Wert finden Sie unter Statistische Methode χ-Quadrat-Test.
[Klicken Sie hier für Details zur χ-Quadrat-Verteilung](https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E5% 88% 86% E5% B8% 83)
(2) Was berechnet "invchi2"?
Inverse Funktion der kumulativen Verteilungsfunktion der χ-Quadrat-Verteilung
Der χ-Quadrat-Test ermittelt häufig den "p-Wert" und beurteilt ihn anhand des Falls, in dem er kleiner als "0,05" ist (der χ-Quadrat-Wert ist ausreichend hoch), hat jedoch eine hohe Punktzahl im Thema der Spam-Klassifizierung. = Es scheint, dass die Umkehrfunktion verwendet wird, um zum χ-Quadrat-Wert (Wert, der der χ-Quadrat-Verteilung folgt) zurückzukehren, weil wir ihn zu Spam machen möchten. --Streit
chi
・ ・ ・ p-Wert
(0 ≤ chi ≤ 1
)
--df
・ ・ ・ Freiheit der χ-Quadrat-Verteilung
--Ausgabe
--χ-Quadrat-Wert (Wert, der der χ-Quadrat-Verteilung folgt). Sie überschreitet jedoch nicht "1".
(3) Kann die Umkehrfunktion berechnet werden?
Wie Sie aus der kumulativen Dichtefunktion der χ-Quadrat-Verteilung ersehen können, kann die Umkehrfunktion nicht berechnet werden. --Um die Umkehrfunktion zu berechnen, [Satz der Umkehrfunktion](https://ja.wikipedia.org/wiki/%E9%80%86%E5%87%BD%E6%95%B0%E5%AE% Es scheint, dass 9A% E7% 90% 86) verwendet wird, um es in eine Differentialgleichung zu bringen, und eine Potenzreihe (wie eine Gleichung n-ter Ordnung) wird verwendet, um eine ungefähre Lösung zu erhalten. ――Es scheint, dass die Methode zur genauen Berechnung der Umkehrfunktion der kumulativen Verteilungsfunktion jeden Tag erforscht wird. Es scheint also, dass sie von einem Algorithmus implementiert wurde, der eine genaue Berechnungsmethode übernommen hat. ――Sie können verschiedene Methoden durchsuchen, indem Sie das Papier mit Stichwörtern wie "Quantiles Chi-Quadrat" durchsuchen.
"Inverses Chi-Quadrat" wird nicht empfohlen, da es eine ähnliche und nicht inverse χ-Quadrat-Verteilung trifft.
――Ist die Fisher-Methode in japanischen Zeitungen als Robinson-Fisher-Methode bezeichnet?
Recommended Posts