[PYTHON] Mathematischer Test 2 (Mathematisches Modell der Item-Reaktionstheorie)

Dies ist eine Fortsetzung von Prüfungsmathematik Teil 1 (Fragenstellung und Datengenerierung).

Letztes Mal war es "Über Problemeinstellung und Datengenerierung". Diesmal "Über das mathematische Modell der Item-Reaktionstheorie".

Die verwendete Umgebung ist

python 3.8
numpy 1.19.2
matplotlib 3.3.1

ist.

Artikelkennlinie

Wie ich letztes Mal schrieb, bestand das Problembewusstsein hier darin, die Fähigkeit des Testteilnehmers und die Schwierigkeit des Problems angesichts der Testergebnisse abzuschätzen. Um dies abzuschätzen, konzentrieren wir uns auf eine bestimmte Frage und stellen grafisch dar, wie gut der Testteilnehmer diese Frage beantworten kann. In extremen Fällen erhalten Sie ein Diagramm wie das folgende:

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-4, 4, 41)
y = x > 1.3
plt.step(x, y)
plt.xlabel("leaner's skill")
plt.ylabel("probability which learner can answer correctly")
plt.show()

Die horizontale Achse ist der numerische Wert, der die Fähigkeit des Prüflings darstellt, und die vertikale Achse ist die Wahrscheinlichkeit, dass der Lernende dieser Fähigkeit die Frage richtig beantwortet. Ein solches Diagramm wird als ** Artikelkennlinie ** bezeichnet. In diesem Beispiel ist die Antwort immer richtig, wenn die Fähigkeit des Lernenden 1,3 überschreitet, und die Antwort ist immer falsch, wenn die Fähigkeit des Lernenden nicht überschritten wird. Wenn Sie eine solche Frage haben, können Sie sie in die Prüfung aufnehmen, um zu messen, ob die Fähigkeit des Lernenden über 1,3 liegt.

Was ist hier der numerische Wert der Fähigkeit des Lernenden? Ich denke, dass sich die Frage natürlich stellt. Zusammenfassend hat der absolute Wert dieser Zahl keine Bedeutung. Wenn es jedoch zwei relative Probleme gibt, zum Beispiel Frage 1 oben, ist Frage 2 ein anderes. Angenommen, Sie haben eine Artikelkennlinie. Zu diesem Zeitpunkt kann beurteilt werden, dass Q1 schwieriger ist als Q2. Eigentlich,

	Kandidat 1	Kandidat 2	Kandidat 3
Frage 1	Falsch	Falsch	Positiv
Frage 2	Falsch	Positiv	Positiv

Wenn das Ergebnis erhalten wird, ist der Fähigkeitswert Wert 1 <Prüfling 2 <Prüfling 3. In dieser Situation treten auch "Q1 (richtig) und Q2 (falsch)" nicht auf.

Diese Situation ist übrigens etwas extrem, denn die beiden Personen, die richtig oder falsch antworten können, sind entscheidend. In Anbetracht der tatsächlichen statistischen Verarbeitung wird erwartet, dass richtige und falsche Antworten eher wahrscheinlich sind. Insbesondere Kandidaten mit der Fähigkeit, die Note zu bestehen, können je nach Frage richtig antworten. In diesem Sinne wird beispielsweise wie folgt tatsächlich als Artikelkennlinie verwendet. Für Probleme mit guten Eigenschaften (Probleme, die die Schwierigkeit und die korrekte Antwortrate nicht umkehren) scheint die kumulative Dichtefunktion der Wahrscheinlichkeitsverteilung ein gutes Modell zu sein. In der Item-Reaktionstheorie wird die logistische Verteilung häufig als eine Funktion verwendet, die mathematisch einfach zu handhaben ist. Ein Modell, das eine logistische Verteilung verwendet, wird als ** logistisches Modell ** bezeichnet. Abhängig von der Anzahl der Parameter pro Problem sind 1 bis 3 Parameterlogistikmodelle bekannt [^ 1]. Im Folgenden wird dieses logistische Modell mit 1 bis 3 Parametern beschrieben.

1 parameter logistic model (1PL model, Rasch model)

Das 1-Parameter-Logistikmodell ist eines der einfachsten Elemente, die als Elementkennlinie behandelt werden, und kann durch die folgende Formel ausgedrückt werden.

\Pr\{u_{ij} = 1|\theta, a, b\} = \frac{1}{1 + \exp(-a(\theta_j - b_i))}

Hier wie im vorherigen Artikel ist der Parameter für die Frage $ i $ und der Parameter für den Kandidaten ist $ j $. $ u_ {ij} $ ist eine stochastische Variable, die angibt, ob der Kandidat $ j $ die Frage $ i $ richtig beantworten kann. Unter der Annahme, dass die Gesamtzahl der Fragen $ I $ und die Gesamtzahl der Testteilnehmer $ J $ beträgt, beträgt die Anzahl der Parameter in diesem Modell $ I $ ($ = b_i $) für Fragen und $ J für Testteilnehmer. Es gibt $ ($ = \ theta_j ) und einen ( = a $) $ I + J + 1 $, die sich auf das Ganze beziehen. Die Artikelkennlinie wird wie folgt gezeichnet.

a = 3
def L1P(b, x, a=a):
    return 1 / (1 + np.exp(-  a * (x - b)))

x = np.linspace(-4, 4, 41)
for b in np.linspace(-2, 2, 5):
    y = partial(L1P, b)(x)
    plt.plot(x, y, label=f"{a=}, {b=}")
plt.xlabel("leaner's skill")
plt.ylabel("probability which learner can answer correctly")
plt.legend()
plt.show()

Wie Sie sehen können, ändert sich die Neigung auf einmal. Mit anderen Worten, die einfache Identifizierung des Schwierigkeitsgrades für jedes Problem ist gleich. Auf diese Weise ist $ a $ eine Größe, die sich auf die einfache Identifizierung bezieht, und wird daher als ** Unterscheidungskraft ** bezeichnet. Es ist ersichtlich, dass der Bereich der Unterscheidungskraft eine positive reelle Zahl ist, und je größer die Unterscheidungskraft ist, desto einfacher ist es, zu unterscheiden. Außerdem wird $ b $ als ** Schwierigkeit ** bezeichnet, da es die Schwierigkeit des Problems darstellt. Der Schwierigkeitsgrad ist die ganze reelle Zahl [^ 2], und je höher der Schwierigkeitsgrad, desto schwieriger ist das Problem. Dieses Modell ist auch als Rasch-Modell bekannt, da es Anfang der 1960er Jahre vom dänischen Mathematiker Rasch untersucht wurde.

2 parameter logistic model (2PL model)

Das 2-Parameter-Logistikmodell ist ein Standardmodell und das einzige [^ 3] -Modell, das im Python-Paket pyirt enthalten ist. Es ist fast die gleiche Formel wie das Rasch-Modell und kann wie folgt ausgedrückt werden.

\Pr\{u_{ij} = 1|\theta, a, b\} = \frac{1}{1 + \exp(-a_i(\theta_j - b_i))}

Dies bedeutet, dass die problemunabhängige Diskriminanzkraft $ a $ jetzt problemabhängig ist ($ a \ rightarrow a_j $). Die Anzahl der Parameter in diesem Modell beträgt $ 2I $ ($ = a_i, b_i $) in Bezug auf das Problem und $ 2I + J $ in Bezug auf den Testteilnehmer ($ = \ theta_j $). .. Die Artikelkennlinie wird wie folgt gezeichnet.

def L2P(a, b, x):
    return 1 / (1 + np.exp(-  a * (x - b)))
x = np.linspace(-4, 4, 41)
for idx in range(5):
    a = 2 * (idx + 1) / 5
    b = -2.0 + idx
    y = partial(L2P, a, b)(x)
    plt.plot(x, y, label=f"{a=}, {b=}")
plt.xlabel("leaner's skill")
plt.ylabel("probability which learner can answer correctly")
plt.legend()
plt.show()

3 parameter logistic model (3PL model) Das 3-Parameter-Logistikmodell ist ein 2PL-Modell plus eine Menge namens ** Raten **. In Prüfungen wie TOEIC sind die Fragen Alternativen (3-Wahl-Fragen, 4-Wahl-Fragen usw.). Welche Maßnahmen ergreift ein Kandidat, wenn der Kandidat nicht in der Lage ist, diese alternative Frage richtig zu beantworten? Es ist eine zufällige Wahl. In einem solchen Fall, zum Beispiel bei einer 4-Auswahl-Frage, wird eine korrekte Antwortrate von mindestens 25% sichergestellt. Dieser 25% -Teil ist eine Vermutung. In einer mathematischen Formel ausgedrückt ist es wie folgt.

\Pr\{u_{ij} = 1|\theta, a, b, c\} = c_i + \frac{1 - c_i}{1 + \exp(-a_i(\theta_j - b_i))}

Hier ist $ c_i $ eine Vermutung in Problem $ i $, und der Bereich möglicher Werte ist $ 0 \ leq c_i \ leq 1 $. Die Anzahl der Parameter in diesem Modell beträgt $ 3I + J $ ($ = a_i, b_i, c_i $) für Fragen und $ J $ ($ = \ theta_j $) für Testteilnehmer. Da ist einer. Die Artikelkennlinie wird wie folgt gezeichnet.

def L3P(a, b, c, x):
    return c + (1 - c) / (1 + np.exp(-  a * (x - b)))
x = np.linspace(-4, 4, 41)
for idx in range(5):
    a = 2 * (idx + 1) / 5
    b = -2.0 + idx
    c = (4 -  idx) / 10
    y = partial(L3P, a, b, c)(x)
    plt.plot(x, y, label=f"{a=}, {b=}, {c=}")
plt.xlabel("leaner's skill")
plt.ylabel("probability which learner can answer correctly")
plt.legend()
plt.show()

nächstes Mal

Einführung in die Parameterschätzmethode für das 3PL-Modell. Testmathematik Teil 3 (3PL-Modelloptimierung)

Verweise

[^ 1]: Es gibt auch ein 4-Parameter-Logistikmodell, das ausdrückt, dass die richtige Antwortrate nur $ d_i (<1) $ erreicht, egal wie hoch die Fähigkeit des Prüflings ist, aber ich werde es weglassen, weil ich nicht viel sehe. [^ 2]: Beschränken Sie sich tatsächlich auf einen geeigneten Bereich, z. B. eine numerische Berechnung. [^ 3]: Stand 16. September 2020