Sensur eller tombola? Eksamen ved universiteter og høyskoler

Den som vet hvordan pølser og lover blir laget, får aldri mer en rolig natt, skal Otto von Bismarck ha uttalt. Studenter som vet hvordan sensur blir laget, får heller aldri mer en rolig natt.

I sommer skrev NRK.no om vernepleierstudenten som strøk etter å ha klaget på en C. Dessverre er dette en kjent problematikk. Det handler om ulike vurderinger fra ulike sensorer, sa sensor Ulf Berge i sakens anledning. Og det har han jo rett i. Hver eneste sommer får vi slike historier om store sprik mellom opprinnelig karakter og klagesensur.

Allerede i 1993 uttrykte et regjeringsoppnevnt utvalg bekymring for den manglende kapasiteten i sensurarbeidet. Den gangen var studenttallet litt over 170 000. Det samlede antall studenter er nå godt over 280 000. Og siden den gang har vi hatt kvalitetsreformen som brått flerdoblet eksamensantallet. Det er en evig jakt i universiteter og høyskoler etter flere, både ansatte, pensjonister og flinke tidligere studenter som kan påta seg sensur.

Hvor godt skodd er de for oppgaven? Det som slår en fersking i akademia er hvor lite påaktet sensur som sådan er. Det gjelder både målt i omfang av publisert forskning om temaet og hos myndighetene. Det finnes for eksempel ikke noen sentral oversikt over hvor ofte studenter klager på eksamen og hva utfallet blir, ifølge NRK.no.

Professor Arild Raaheim ved Universitetet i Bergen, som har skrevet den interessante boka Eksamensrevolusjonen, forsket på sensuren ved Psykologisk institutt i Bergen i år 2000 (før kvalitetsreformen). Han gav 50 eksamensbesvarelser på bachelornivå i psykologi til sju ulike sensorer. For mer enn halvparten av oppgavene varierte sensuren med mer enn et helt tall i det gamle eksamenssystemet som gikk fra 1.0 til 4.0. Hans resultater ble siden gått grundig over igjen av Tove I. Dahl ved Universitetet i Tromsø, som publiserte i tidsskriftet Assessment in Education: Principles, Policy & Practice i 2006. Ved hjelp av mer avanserte statistiske metoder enn Raahem selv hadde brukt, konkluderte Dahl med at ”the problem was even more precarious” enn Raaheim hadde gitt uttrykk for. Og han mente altså i utgangspunktet at situasjonen var prekær. Ren flaks og uflaks avgjorde hvem som fikk gå videre på embetsstudiet i psykologi, og hvem som aldri fikk sjansen.

De fastlagte rutinene for anonymitet har skapt en falsk opplevelse av at karaktersetting i sin natur også er objektivt og pålitelig (reliable) skriver Dahl videre i artikkelen. Et av de virkemidlene hun foreslår for forbedring er tydeligere kriterier og transparens.

I 2014 ble det innført såkalt blind klagesensur. Ny sensor skal ikke vite hva som var karakteren på oppgaven det klages på. Fakultetsledelsene på juridisk, i både Oslo, Bergen og Tromsø, har protestert heftig på endringen. De mener det ikke er noe som tilsier at en ny sensor er dyktigere enn den gamle, snarere tvert i mot, fordi ”klage-sensorene” har et mindre antall oppgaver å forholde seg til og fordi de får et skjevt utvalg. Det er jo ingen som klager på en A. Dessuten, mener juristene, og det er et viktig poeng: Den gamle klageordningen var begrunnet i den forvaltningsmessige tradisjonen at ved klage må en beslutning både begrunnes og så vurderes kritisk en gang til. En helt ny sensur høres jo flott ut men er like lite transparent som den første var.

Studenter på bachelornivå er selv særlig opptatt av hvilken karakter de får på bacheloroppgaven, den store avsluttende oppgaven i studiet for de fleste. Professor Johan Fredrik Rye presenterer en studie av denne sensuren i tidsskriftet Uniped 3/2014. Tolv ulike bacheloroppgaver fra ulike studiesteder innen sosiologi ble alle gitt til seks sensorer. Vurderingene var lite konsistente. For fire bacheloroppgaver, altså en tredel (!) ble det gitt hele tre forskjellige karakterer på skalaen fra A (beste karakter) til F (som er stryk). I kun ett av de tolv tilfellene var det stor grad av enighet der fem av seks sensorer foreslo samme karakter.

I Ryes undersøkelse fant han også tydelige ”snille” og strenge sensorer. Den strengeste sensoren gav A eller B kun i 16 prosent av tilfellene, den ”snilleste” i hele 67 prosent. Og selvfølgelig har faglig ståsted mye å si: … det noen panelsensorer gjenkjenner som ”spenstig” sosiologi, oppfattes av andre som ”umodent, skriver Rye.

Sommerens nyhetssak om vernepleierstudentene som fikk både B, D og F på på samme oppgave er altså overhodet ikke spesiell.

Det er på tide å gi temaet sensur langt større forskningsmessig og forvaltningsmessig oppmerksomhet. Høyere utdanning er unge menneskers største enkeltinvestering, kanskje nest etter bolig. Arbeidslivet på sin side trenger pålitelig informasjon om hva studentene faktisk kan. Dagens tilstand er virkelig ikke god nok.

Denne artikkelen har stått på trykk i Morgenbladet 9.9.16