Om diskretionering

For at beskytte de enkelte elevers data og sikre, at data for individerne i opgørelserne til alle tider er blændede, foretages der diskretionering af data. Grænserne for diskretionering varierer mellem dataområderne (se evt. datadokumentationen), men for de fleste dataområder gælder, at hvis der indgår 3 eller færre individer i en beregning, vil resultatet af beregningen ikke blive vist. For trivselsmålinger er grænsen 5 eller færre elever.

Når et resultat diskretioneres, bliver resultatet ikke gjort tilgængeligt. Det tilbageholdes, og indgår derfor ikke i et datasæt der hentes fra API'et. Udtrækker man et større datasæt, der er opdelt på meget små enheder, vil der derfor ofte være resultater, der er udeladt. De resultater, der indgår i datasættet, er selvfølgelig korrekte, men hvis det samlede datasæt eksempelvis efterfølgende summeres, vil totalsummen ikke altid stemme med en totalsum, der på anden vis fremskaffes. Det skyldes, at der kan være resultater, som er udeladt.

Hvis der eksempelvis hentes trivselsdata for en institution med et uddannelsesudbud med et meget lille deltagerantal, og det samtidig vælges at opgøre data opdelt på køn og samt andre opdelinger – da vil nogle af opgørelserne måske indeholde for få elever til, at beregningen kan vises. I de tilfælde vil tallet ikke blive medtaget i beregningen, og dermed mangler der data for et lille udsnit af de elever der ønskes hentet.

Lad API'et beregne totalsummer

Når data trækkes fra API'et og efterfølgende summeres, kan der mangle små grupper af datapunkter grundet diskretioneringen. Det samme gør sig dog ikke gældende, hvis data trækkes mindre findelt, da der dermed ikke længere er små grupper med for få datapunkter i. I stedet for selv at summere data, kan man trække det summerede data fra API'et. Disse summer vil være korrekte, da der ikke er behov for at diskretionere data her.

I følgende eksempel, laves der et udtræk over antallet af elever i 0. klasse fordelt på grundskoleafdelinger og for skoleåret 2021/2022. Det giver et datasæt, der indeholder en del små klasser, hvoraf nogle vil være så små at de diskretioneres.


Forespørgsel

Køres denne forespørgsel mod API'et, modtager man et datasæt, med antallet af elever i de forskellige 0. klasser i 2021/2022. Hvis der efterfølgende beregnes en totalsum, ved at summere Antal elever fra samtlige datapunkter, får man følgende totalsum: 59.985.


Hvis der i stedet laves et datatræk, hvor data ikke er fordelt på skoleafdelinger, får man et noget kortere datasæt.


Forespørgsel


Resultat

Denne gang er totalsummen på 60.236. Der mangler således ca. 250 elever i totalen fra opgørelsen på afdelingsniveau. Dette skyldes, at der findes 0. klasser med færre end fem elever (typisk i specialtilbud).

De data, der modtages fra API'et, vil altid være korrekt summeret. Hvis data diskretioneres, bliver det tilbageholdt, og bliver ikke modtaget fra API'et. Men de data man modtager vil selvfølgelig altid aggregere de underliggende datapunkter korrekt, uden at udelade nogle datapunkter. Træk derfor data på det niveau de skal bruges, i stedet for at aggregere dem selv. Så vil der ikke opleves problemer med totalsummer.