Testergebnis – Wikipedia

before-content-x4

EIN Prüfungsergebnis ist eine Information, normalerweise eine Zahl, die die Leistung eines Prüflings bei einem Test vermittelt. Eine formale Definition ist, dass es “eine Zusammenfassung der Beweise ist, die in den Antworten eines Prüflings auf die Punkte eines Tests enthalten sind, die sich auf das Konstrukt oder die zu messenden Konstrukte beziehen”.[1]

after-content-x4

Testergebnisse werden mit einer norm- oder kriterienbezogenen Interpretation oder gelegentlich mit beiden interpretiert. Eine normbezogene Interpretation bedeutet, dass die Punktzahl dem Prüfling eine Bedeutung in Bezug auf seine Stellung unter anderen Prüflingen vermittelt. Eine kriteriumbezogene Interpretation bedeutet, dass die Bewertung Informationen über den Prüfling in Bezug auf ein bestimmtes Thema vermittelt, unabhängig von den Bewertungen anderer Prüflinge.[2]

Arten von Testergebnissen[edit]

Es gibt zwei Arten von Testergebnissen: Rohwerte und skalierte Ergebnisse. Eine Rohbewertung ist eine Bewertung ohne jegliche Anpassung oder Transformation, z. B. die einfache Anzahl der richtig beantworteten Fragen. Eine skalierte Bewertung ist das Ergebnis einiger Transformationen, die auf die Rohbewertung angewendet werden.

Der Zweck skalierter Bewertungen besteht darin, die Bewertungen für alle Prüflinge auf einer konsistenten Skala anzugeben. Angenommen, ein Test hat zwei Formen und eine ist schwieriger als die andere. Es wurde durch Gleichsetzen festgestellt, dass eine Punktzahl von 65% in Form 1 einer Punktzahl von 68% in Form 2 entspricht. Die Punktzahlen in beiden Formularen können in eine Skala umgewandelt werden, sodass diese beiden äquivalenten Punktzahlen die gleichen gemeldeten Punktzahlen aufweisen. Zum Beispiel könnten beide eine Punktzahl von 350 auf einer Skala von 100 bis 500 sein.

Zwei bekannte Tests in den USA, bei denen die Punktzahlen skaliert wurden, sind der ACT und der SAT. Die ACT-Skala reicht von 0 bis 36 und die SAT von 200 bis 800 (pro Abschnitt). Angeblich wurden diese beiden Skalen ausgewählt, um einen Mittelwert und eine Standardabweichung von 18 und 6 (ACT) sowie 500 und 100 darzustellen. Die oberen und unteren Grenzen wurden ausgewählt, da ein Intervall von plus oder minus drei Standardabweichungen mehr als 99% von enthält eine Bevölkerung. Werte außerhalb dieses Bereichs sind schwer zu messen und liefern wenig praktischen Wert.

Beachten Sie, dass die Skalierung die psychometrischen Eigenschaften eines Tests nicht beeinflusst. Dies geschieht, nachdem der Bewertungsprozess (und das Gleichsetzen, falls vorhanden) abgeschlossen ist. Daher geht es nicht um Psychometrie an sich, sondern um Interpretierbarkeit.

Bewertung von Informationsverlust[edit]

Ein einfaches Dreieck mit markierter Höhe

Fläche = 7,5 cm2

Ein identisches einfaches Dreieck mit markierter Höhe

Basis = 5 cm; Höhe = 3 cm
Fläche = 1/.2(Basis × Höhe)
= 1/.2(5 cm × 3 cm)
= 7,5 cm2

after-content-x4

Die erste zeigt den Verlust von Bewertungsinformationen. Der Lehrer weiß, ob der Schüler die richtige Antwort erhalten hat, weiß aber nicht, wie der Schüler zu der Antwort gekommen ist. Wenn die Antwort falsch ist, weiß der Lehrer nicht, ob der Schüler geraten hat, einen einfachen Fehler gemacht oder das Thema grundlegend falsch verstanden hat.

Wenn Tests bewertet werden richtig falschEs wurde eine wichtige Annahme über das Lernen gemacht. Die Anzahl der Recht Antworten oder die Summe der Punktzahlen (bei teilweiser Gutschrift) wird als angemessenes und ausreichendes Maß für den aktuellen Leistungsstatus angenommen. Darüber hinaus wird sekundär davon ausgegangen, dass die falsch Antworten.

Erstens kann eine korrekte Antwort mit erreicht werden Auswendiglernen ohne ein tiefgreifendes Verständnis des zugrunde liegenden Inhalts oder der konzeptionellen Struktur des gestellten Problems. Zweitens, wenn mehr als ein Lösungsschritt erforderlich ist, gibt es häufig verschiedene Ansätze zur Beantwortung, die zu a führen richtig Ergebnis. Die Tatsache, dass die Antwort richtig ist, zeigt nicht an, welches der verschiedenen möglichen Verfahren angewendet wurde. Wenn der Schüler die Antwort liefert (oder die Arbeit zeigt), sind diese Informationen aus den Originaldokumenten leicht verfügbar.

Zweitens, wenn die falsch Antworten waren blind Vermutlich gibt es unter diesen Antworten keine Informationen. Auf der anderen Seite, wenn falsch Die Antworten spiegeln Interpretationsabweichungen von der erwarteten wider. Diese Antworten sollten eine geordnete Beziehung zu dem zeigen, was der Gesamttest misst. Diese Abweichung sollte vom Grad der psycholinguistischen Reife des Schülers abhängen, der die Antwort in der Umgangssprache, in der der Test geschrieben ist, auswählt oder gibt.

In diesem zweiten Fall sollte es möglich sein, diese Reihenfolge aus den Antworten auf die Testelemente zu extrahieren.[3] Solche Extraktionsprozesse, beispielsweise das Rasch-Modell, sind bei Fachleuten Standard für die Artikelentwicklung. Da jedoch die falsch Antworten werden während des Bewertungsprozesses verworfen. Eine Analyse dieser Antworten auf die darin enthaltenen Informationen wird selten durchgeführt.

Drittens, obwohl manchmal themenbasierte Subtest-Bewertungen bereitgestellt werden, ist es üblicher, die Gesamtbewertung oder eine neu skalierte Version davon zu melden. Diese Neuskalierung soll diese Bewertungen mit einem Standard vergleichen. Dieser weitere Zusammenbruch der Testergebnisse entfernt systematisch alle Informationen darüber, welche bestimmten Elemente übersehen wurden.

So wird ein Test bewertet richtig falsch verliert 1) wie Schüler ihre erreicht haben richtig Antworten, 2) was sie in die Irre führte zu inakzeptablen Antworten und 3) wo innerhalb des Testkörpers diese Abweichung von den Erwartungen auftrat.

Dieser Kommentar legt nahe, dass das derzeitige Bewertungsverfahren die Dynamik des Testprozesses verbirgt und die Fähigkeiten der zu bewertenden Schüler beeinträchtigt. Die derzeitige Bewertungspraxis vereinfacht diese Daten im ersten Bewertungsschritt zu stark. Das Ergebnis dieses Verfahrensfehlers besteht darin, diagnostische Informationen zu verschleiern, die den Lehrern helfen könnten, ihren Schülern einen besseren Service zu bieten. Es verhindert ferner, dass diejenigen, die diese Tests sorgfältig vorbereiten, die Informationen beobachten können, die sie sonst auf das Vorhandensein dieses Fehlers aufmerksam gemacht hätten.

Eine Lösung für dieses Problem, bekannt als Response Spectrum Evaluation (RSE),[4] Derzeit wird eine Entwicklung entwickelt, die in der Lage zu sein scheint, alle drei Formen des Informationsverlusts wiederherzustellen und gleichzeitig eine numerische Skala zur Ermittlung des aktuellen Leistungsstatus und zur Verfolgung von Leistungsänderungen bereitzustellen.

Dieser RSE-Ansatz bietet eine Interpretation jeder Antwort, ob richtig oder falsch, die die wahrscheinlichen Denkprozesse angibt, die vom Testteilnehmer verwendet werden.[5] In diesem Kapitel wird unter anderem berichtet, dass die wiederherstellbaren Informationen zwei- bis dreimal mehr der Testvariabilität erklären, als nur die richtigen Antworten zu berücksichtigen. Dieser massive Informationsverlust kann durch die Tatsache erklärt werden, dass die “falschen” Antworten aus den während des Bewertungsprozesses gesammelten Informationen entfernt werden und nicht mehr verfügbar sind, um den Verfahrensfehler aufzudecken, der mit der richtigen und falschen Bewertung verbunden ist. Das Verfahren umgeht die Einschränkungen, die durch die linearen Abhängigkeiten der Testdaten entstehen.

Verweise[edit]

  1. ^ Thissen, D. & Wainer, H. (2001). Test Scoring. Mahwah, NJ: Erlbaum. Seite 1, Satz 1.
  2. ^ Leitfaden für Iowa-Testprogramme zur Interpretation von Testergebnissen Archiviert 2008-02-12 an der Wayback-Maschine
  3. ^ Powell, JC und Shklov, N. (1992) Das Journal of Educational and Psychological Measurement52 (847–865)
  4. ^ “Willkommen auf der Startseite”. Archiviert vom Original am 30. April 2015. Abgerufen 2. Mai 2015.
  5. ^ Powell, Jay C. (2010) Testen als Feedback zur Information des Unterrichts. Kapitel 3 in; Lernen und Unterrichten im digitalen Zeitalter, Teil 1. Kognitive Ansätze für Lernen und Unterrichten. (J. Michael Spector, Dirk Ifenthaler, Pedro Isaias, Kinshuk und Demetrios Sampson, Hrsg.), New York: Springer. ISBN 978-1-4419-1551-1, doi:10.1007 / 978-1-4419-1551-1


after-content-x4