Kwaliteit van toetsing

Als examinator bent u verantwoordelijk voor de kwaliteit van de toetsing. De kwaliteit van de schriftelijke toetsen wordt bepaald door validiteit, betrouwbaarheid en transparantie. De Commissie Kwaliteitszorg Toetsing (CKT) borgt de kwaliteit van de toetsing in opdracht van de examencommissie.

Voorafgaand aan de toetsing zijn de volgende zaken belangrijk:

  • Opstellen van een toetsmatrijs welke leidend is voor het ontwerp van de toets (transparantie en validiteit);
  • Ontwerpen van de toetsing, het antwoordmodel, de cesuur en normering;
  • Studenten informeren over de wijze van toetsing, leerdoelen en toetsafname (transparantie vergroten);
  • De toetsing (inclusief antwoordmodel) controleren door bijvoorbeeld toetsvragen in het docententeam te bespreken en te controleren.

Achteraf:

  • De betrouwbaarheid van uw toets bepalen door middel van een toetsanalyse. Hiervoor kan er gebruik worden gemaakt van een van de volgende hulpmiddelen:
    • Analyse van digitale toetsing
    • Milius Koster tabel (zie onder Toetsanalyse)
    • COLUU analyses
  • Indien nodig de normering bijstellen.

Validiteit

Een valide toets is een goede afspiegeling van de leerdoelen en de leeractiviteiten (constructive alignment) van de cursus. De validiteit wordt bepaald door:

  • Relevantie: de toetsing staat in relatie tot de leerdoelen van de cursus;
  • Evenwichtigheid: het aantal vragen/opdrachten per onderwerp is in verhouding met het belang van een onderwerp;
  • Constructvaliditeit: de formulering van de vragen/opdrachten is ondubbelzinnig, zonder het antwoord weg te geven.
 

Betrouwbaarheid

Het testresultaat van een betrouwbare toets weerspiegelt de daadwerkelijke kennis en vaardigheid van de student en zorgt ervoor dat de student een eerlijke beoordeling krijgt. Een valide toets hoort ook betrouwbaar te zijn. Een betrouwbare toets is objectief en heeft een onderscheidend vermogen.

  • Objectiviteit: de mate waarin de toetsuitslag onafhankelijk is van de beoordeling/ beoordelaar en/of de toetsomstandigheden.
  • Onderscheidend vermogen: de toets(vragen) zijn in staat te differentiëren tussen studenten die de studiestof goed en studenten die de stof minder goed beheersen.

Hoewel de kwaliteit van een toets niet direct kan worden gemeten, zijn moeilijkheid, onderscheidend vermogen en consistentie indicatoren van kwaliteit van toetsing. Van examinatoren wordt verwacht dat zij een toetsanalyse uitvoeren. Hierbij moet worden opgemerkt dat toetsen met een beperkt aantal deelnemers niet altijd de hieronder genoemde waarden zullen bereiken, maar wel de examinator in staat stelt om de betrouwbaarheid te meten.

Hieronder wordt uitgelegd hoe moeilijkheid, onderscheidend vermogen en consistentie berekend kunnen worden. Met behulp van de volgende hulpmiddelen kan de docent de betrouwbaarheid meten:

  1. De COLUU-analyses van meerkeuzevragen;
  2. De analyse van de digitale toetsing (TestVision of Remindo);
  3. De analyse van de betrouwbaarheid van de open vragen via de Milius-Koster-tabel.

Milius-Koster tabel.pdf267.59 KB

Moeilijkheid

De moeilijkheid van toetsing is in principe afgestemd op het gewenste eindniveau van de cursus. De moeilijkheid kan worden gemeten met de p-waarde, maar kan ook de kwaliteit van het onderwijs onderstrepen (een hoge p-waarde kan een te makkelijke vraag betekenen, maar ook dat het onderwijs uitstekend voorbereidt op de gemeten kennis).

De p-waarde kan worden berekend door:

  • p-waarde = gemiddelde score van een vraag / maximaal te behalen punten van een vraag

Een p-waarde ligt tussen 0-1, waarbij een p-waarde van 0 betekent dat alle studenten de vraag fout hebben beantwoord en een p-waarde van 1 betekent dat alle studenten de vraag goed hebben beantwoord. Een p-waarde boven de 0,8 (>80% van alle studenten hebben de vraag goed beantwoord) betekent dat een vraag (te) makkelijk is; een p-waarde onder de 0,3 betekent dat een vraag (te) moeilijk is. Het is belangrijk dat een toets een evenwichtige samenstelling van vragen heeft. Afhankelijk van de p-waarde is het mogelijk dat het antwoordmodel aangepast moet worden of dat de vraag moet komen te vervallen. Hiervoor is ook het onderscheidend vermogen (Rit-waarde) belangrijk.

Onderscheidend vermogen

De moeilijkheid van toetsing is in principe afgestemd op het gewenste eindniveau van de cursus. De moeilijkheid kan worden gemeten met de p-waarde, maar kan ook de kwaliteit van het onderwijs onderstrepen (een hoge p-waarde kan een te makkelijke vraag betekenen, maar ook dat het onderwijs uitstekend voorbereidt op de gemeten kennis).

De p-waarde kan worden berekend door:

  • p-waarde = gemiddelde score van een vraag / maximaal te behalen punten van een vraag 

Cronbach alpha

Bij toetsen is het niet mogelijk om de betrouwbaarheid te bepalen door de test een tweede keer af te nemen, want de student is immers na de eerste keer bekend met de toetsvragen en kan daar zijn voordeel mee doen. Cronbach alpha (α) meet de betrouwbaarheid door de standaarddeviaties (SD) van de vragen te vergelijken met de SD van de totaalscores en kan worden berekend als:

  • α = (aantal vragen / (aantal vragen - 1)) X (1 - (SD vraag2 / SD totaal score2))

Een waarde tussen 0,6 en 0,8 wordt als een betrouwbare toets gezien. Is de α lager dan 0,6 dan behoeft het uw aandacht. Is de α hoger dan 0,8, dan kan u overwegen of er kan worden volstaan met minder toetsvragen. De bepaling van α is vooral relevant bij toetsen met voldoende deelnemers en met veel vragen, die vergelijkbare competenties onder vergelijkbare condities (tijd) meten. Een lagere α (maar groter dan 0,6) is niet direct verontrustend omdat toetsen met heterogene*, geclusterde**, (zeer) moeilijke*** of weinig vragen, α drukken. Indien α kleiner is dan 0,6 (en de toets door een behoorlijk aantal studenten is gemaakt), is dit een reden om kritisch naar de toets te kijken, met nadruk op de vragen met afwijkende Rit-waarden.

* Heterogene vragen: vragen die meerdere competenties toetsen.
** Geclusterde vragen: vragen waarbij studenten moet doorredeneren (of doorrekenen), waarbij het antwoord afhankelijk is van een eerder antwoord.

*** (Zeer) moeilijke vragen: vragen om excellente studenten te onderscheiden van de gemiddelde studenten.

 
*** (Zeer) moeilijke vragen: vragen om excellente studenten te onderscheiden van de gemiddelde student

Transparantie

Studenten horen (voorafgaand aan de cursus) te weten waar zij aan toe zijn, zodat zij zich zo goed mogelijk kunnen voorbereiden op (de cursus en) de toetsing. Daarom dienen de randvoorwaarden van de toetsing, toetsvormen en de leerdoelen bekend te zijn bij de studenten, bijvoorbeeld door deze te beschrijven in de cursusbeschrijving, het blokboek, de toetsmatrijs en/of het rooster.

De randvoorwaarden van toetsing zijn:

  • Het tijdstip waarop de toets plaatsvindt (staat vermeld in het rooster);
  • Eventuele deadlines voor het aanleveren van opdrachten;
  • De vorm en omvang van de toets;
  • De beschikbare tijd;
  • De beoordelingscriteria;
  • De (normering en) cesuur per toets en het minimum cijfer per toets;
  • De weging van iedere deeltoets en de berekening van het eindcijfer;
  • De controle op fraude en plagiaat.
 

Er dient altijd een toetsanalyse te worden uitgevoerd. De toetsanalyse wordt meegenomen bij het bepalen van de definitieve cesuur. De cijfers worden daarna berekend en gecommuniceerd naar de studenten en docenten. Ook hebben de studenten inzagerecht voor het werk dat zij hebben afgeleverd (binnen 20 werkdagen na uitslag van de toets).

Milius Koster tabel

U kunt een toetsanalyse over de open vragen uitvoeren met behulp van de Milius Koster tabel. Deze tabel kunt u in de vorm van een Excelbestand hieronder downloaden. In dit bestand is tevens een toelichting over het gebruik ervan te vinden. 

AnalyseOpenVragen.xlsx745.19 KB

In onderstaand Excelbestand vindt u een reeds ingevulde Milius Koster tabel (als voorbeeld).

AnalyseOpenVragen voorbeeld.xlsx764.59 KB

De toetsing wordt achteraf geëvalueerd en beoordeeld door een collega-examinator en de Commissie Kwaliteitszorg Toetsing (CKT). De uitkomsten van de toetsanalyse, de cursusevaluatie en de toetsbeoordeling vormen de basis voor het ontwerp van de toets in de volgende cyclus.

Antwoordmodel of normering aanpassen

De psychometrische analyses van de toetsanalyse (p-waarde, Rit-waarde en α) zijn geen directe maat voor de kwaliteit van de toetsing, maar zij geven wel signalen over de kwaliteit van de vragen. Afwijkende waarden kunnen ertoe leiden dat een vraag of het bijhorende antwoord moet worden aangepast (mogelijk moeten er meerdere antwoorden goed worden gerekend), moeten vragen uitgesloten worden en moet de uitslag van de toets opnieuw worden berekend. Eventueel moet de toetsmatrijs en/of toetsconstructie onder de loep worden genomen. In de volgende documenten vindt u een uitleg van de psychometrische analyses en een stroomschema, welke u als examinator/beoordelaar een advies geeft bij afwijkende psychometrische analyses.

Benadeelde studenten

Indien u op basis van de psychometrische analyses besluit een vraag te verwijderen, houd dan rekening met studenten die hiermee worden benadeeld (studenten die deze vraag goed hadden beantwoord). Vragen die te moelijk waren, kunnen bijvoorbeeld ook alleen als bonusvraag worden meegerekend. Vragen die fout zijn gebleken moeten worden verwijderd uit de toets. Indien u meer advies of ondersteuning nodig heeft over toetsanalyses en wat de resultaten betekenen kunt u contact opnemen met de examencommissie via examencommissieBMW@umcutrecht.nl

 

Toetsevaluaties door CKT

De toetsing wordt vanaf april 2018 twee keer per drie jaar geëvalueerd, waarvan één keer door middel van peer feedback en één keer door de CKT. Het derde jaar wordt de toetsing niet geëvalueerd, maar wordt de toetsing (inclusief alle bijbehorende informatie) wel opgevraagd ter archivering. De volgorde van de driejarige cyclus is per cursus verschillend.

Peer feedback

Examinatoren worden in duo's aan elkaar gekoppeld, zodat zij elkaars toetsing voor de totale cursus onder de loep kunnen nemen aan de hand van een door de CKT opgestelde checklist. De voordelen hiervan zijn:

  • Voor alle onderwijsonderdelen en alle toetsvormen wordt aandacht besteed aan kwaliteitsborging (niet alleen schriftelijke toetsing);
  • Intercollegiaal overleg stimuleert het delen van good practices en het creëren van een gezamenlijke visie op toetsing.

De opleiding verwacht dat dit bijdraagt aan het professionaliseren van alle examinatoren met als gezamenlijk doel het verbeteren van de kwaliteit van toetsing.

De cyclus van de toetsbeoordelingen is lang (17 weken) en afhankelijk van de medewerking van alle betrokken partijen. Het is daarom belangrijk de gestelde deadlines en afspraken na te komen.

De cyclus verloopt alsvolgt:

  • Week 2: Twee weken na het eind van een cursus ontvangt de examinator een uitnodiging van de ambtelijk secretaris van de examencommissie tot het invullen van het evaluatieformulier via formdesk. Bij de uitnodiging ontvangt u een code die u toegang geeft tot het formulier. Indien u het formulier met deze code opent en sluit, ontvangt u automatisch een nieuwe code via formdesk die u een volgende keer nodig heeft om het formdeskformulier te openen. Hiermee vervalt de originele code die u van de ambtelijk secretaris heeft ontvangen. De beoordelaar wordt op de hoogte gesteld van de start van de cyclus.
  • Week 2 - 5: De examinator vult het formdeskformulier in. De ambtelijk secretaris stuurt het ingevulde formulier door naar de beoordelaar. De examinator verstuurt ondersteunende documenten (toetsen, opdrachten, toetsmatrijs, rubrics, toetsanalyse etc.) beveiligd naar de beoordelaar. Om de toetsen en modelantwoorden veilig te versturen kunt u gebruik maken van het instellen van een wachtwoord in Word. De examinator nodigt de beoordelaar uit voor een gesprek.
  • Week 5 - 8: De beoordelaar vult het formdeskformulier in en bevestigt afspraak met examinator.
  • Week 8 - 10: Gesprek tussen examinator en beoordelaar vindt plaats.
  • Week 10 - 12: De examinator en beoordelaar ronden het invullen van het formdeskformulier af. De ambtelijk secretaris van de examencommissie verstuurt de volledig ingevulde formulieren naar de CKT-leden.
  • Week 12 - 16: De CKT bespreekt de evaluaties en voorziet deze van feedback.
  • Week 17: De CKT verstuurt de evaluaties naar de examinator.  

Voor vragen over (toegang tot) het formulier kunt u mailen naar de ambtelijk secretaris van de examencommissie via examencommissieBMW@umcutrecht.nl. Voor ondersteuning en inhoudelijke vragen kunt u eveneens mailen met de examencommissie.

Commissie Kwaliteitszorg Toetsing (CKT)

De CKT werkt onder verantwoordelijkheid van de BEC en heeft als opdracht haar bevindingen over de kwaliteit van toetsing aan de examencommissie en de examinatoren te rapporteren.

  • Een keer per drie jaar stelt de CKT de kwaliteit van toetsing vast aan de hand van evaluatieformulieren ingevuld door de examinator en een beoordelende collega.
  • Een keer per drie jaar controleert de CKT de kwaliteit van toetsing door zelf de toetsing te evalueren en te controleren.

Om de kwaliteit van de toetsing en beoordeling op een goed niveau te houden en mogelijk verder te verbeteren, ondersteunen de leden van de examencommissie en de CKT, op verzoek, de examinatoren en docenten die bij toetsing en beoordeling betrokken zijn. 

De CKT is te bereiken via cktbmw@umcutrecht.nl.