måndag 10 februari 2014

Speglade linjediagram

Häromdagen skrev Robert Kosara, en av de ledande rösterna inom informationsvisualisering, ett inlägg på sin blogg EagerEyes om s.k. speglade linjediagram. Detta är alltså linjediagram som visar utvecklingen över tid för en variabel som bara kan anta två värden som definitionsmässigt måste summera till 100 procent; ja eller nej, svart eller vitt, män eller kvinnor osv. De två linjerna blir därmed av nödvändighet inversen av varandra - är andelen ja 30 procent, måste andelen nej vara 70 procent, 20 procent svart ger alltid 80 procent vitt.

Robert Kosara är kritisk till den här typen av diagram. Den andra linjen tillför per definition inga ytterligare data - är värdet 40 procent för den ena linjen, måste den andra bli 60 procent. Båda linjerna speglar alltid varandra. Hans argument är att en andra linje bara bidrar till chart junk i diagrammet - utgör den inte datapunkter, ska den inte vara med. Snarare försvårar den läsningen av diagrammet. Dessutom antyder den en stark negativ korrelation mellan serierna, när de i själva verket bara är resultatet av en defintionsmässig nödvändighet.

Som av en händelse dök just ett sådant diagram upp i söndagens DN (Männen tar ut allt fler dagar), som beskriver hur andelen av föräldrapenningen som tas ut av män respektive kvinnor från mitten av sjuttiotalet fram tills idag.


Alternativet - om man går på Kosaras linje - skulle vara att istället bara visa en linje. Budskapet i artikeln är att männens andel av föräldrapenningen stadigt har ökat, men att det fortfarande är en bra bit kvar till en helt jämlik fördelning. Alltså är det mest intressant att visa hur männens andel har utvecklats. Utifrån en kommentar till Kosaras blogginlägg kan det också vara vettigt att lägga in en markering av 50-procentsnivån i diagrammet, vilket skulle ange en helt jämn fördelning av föräldrapenningsuttaget. I ursprungsdiagrammet skulle motsvarande fördelning visas när de två linjerna korsas - fast då med dubbelt så många datapunkter. Ett omgjort diagram skulle alltså se ut ungefär så här:


Fokus läggs i betydligt högre grad på hur männens andel har utvecklats. Samtidigt tappar man möjligheten att på ett enkelt sätt bedöma hur stort gapet är mellan männens och kvinnornas andel. Men istället blir det betydligt lättare att se hur stort gapet är till en helt jämn fördelning. Det är trots allt bara på den nivån kurvorna kan mötas. Och - ännu viktigare - man luras dessutom inte att analysera utvecklingen av de båda kurvorna var för sig. En förändring i den ena följs med nödvändighet av motsvarande inverterade förändring i den andra. Samma datapunkt skulle annars vara duplicerad utan att tillföra ytterligare information.

Även om det spontana intrycket är att det kan vara intressant med två kurvor - en för män och en för kvinnor - tycker jag ändå att de metodmässiga argumenten väger över. Diagrammet gör sig helt enkel bättre utan speglade linjer.

Inga kommentarer:

Skicka en kommentar