Idiotisk debatt kring sexuellt våld och invandring

av Mikael Brunila

Alla statistiska modeller har fel, men vissa är användbara”,  lär den brittiske statistikern George­ Box ha sagt i tiderna. Det hade varit bra för journalister och andra tyckare att minnas i januari, då debatten kring invandring och sexualbrott bröt ut i Finland. Diskussionen startade efter några allvarliga fall av sexuella övergrepp i Uleåborg och sedan fler i Helsingfors. Händelserna upprörde journalistkåren till den grad att man bestämde sig för att gräva fram siffror, hårda fakta. ”Utlänningar är överrepresenterade bland sexbrottslingar!” gastade snart rubriker från stora och små mediehus. Hur kom de till den slutsatsen?

Jo, de tittade på lite rådata och kastade in några lösryckta kommentarer från ett par professorer i statistik. Se där, quod erat demonstrandum! Helsingin Sanomat och Yle ledde offensiven med några väldigt vilseledande grafer, paradexempel på hur finländsk datajournalistik ofta är dumhet i fräcka färger.

Problemet är att det mig veterligen inte finns någon gedigen forskning i Finland om sambandet mellan etnisk eller nationell bakgrund och sexualbrott. Polishögskolan har sammanställt ett par slarviga rapporter, men de innehåller bara sammanfattande tabeller, inga statistiska modeller för att fastställa samband mellan olika variabler framställs.

Analyserna i januari gjordes alltså med fingertoppskänsla hos människor som inte har speciellt känsliga fingertoppar. Rapporteringen innehöll åtminstone följande problem:

1. Metoder för datainsamling och sampel beaktades inte alls. Statistik förutsätter ofta att datasampel samlas in på ett sunt sätt. Själva insamlingen bör inte påverka resultaten, man kan till exempel randomisera var och i vilken ordning man samlar in sina uppgifter.

Det är ett svårt krav att ställa på brottsstatistiken. Brottsstatistik samlas i första hand in av polisen eftersom polisen tar emot brottsanmälningarna, och polisen avgör om ett fall är trovärdigt och skickas vidare till åklagaren. Det var inte många veckor sedan som flera tidningar rapporterade att polisen rutinmässigt stänger de flesta brottsundersökningar på grund av bristande resurser. Om det inom poliskåren finns en benägenhet att ta anmälningar om sexualbrott begångna av invandrare och icke-vita på större allvar, ja, då kommer det att synas i statistiken. Det samma gäller åklagarmyndigheterna, vars egna förutfattade meningar medvetet eller omedvetet kan förvränga statistiken då de beslutar vilka fall som förs till rätten.

2. Ett faktum besläktat med sampelproblemet är att även de grupper som förekommer mest i sexualbrottsstatistiken begår ett så litet antal brott per år att det är svårt att etablera statistiska samband. Om en viss grupp i årligen medeltal begår tio brott av en viss typ, och standardavvikelsen är fem, så betyder det att en visuell framställning av brotten från år till år kan se ut som enorma kast med oförklarliga ökningar och fall. När den här typen av siffror presenteras, vilket Yle-journalisten Hanna Hanhinen gjorde i en artikel i januari, så kan man säga att de direkt vilseleder den statistiskt oinsatte läsaren istället för att erbjuda information.

3. Journalisten Eero Mäntymaa konstaterade i en artikel på Yle i december att sexualbrott mot minderåriga hade uppdagats i Uleåborg. Sedan följde en lång artikel om brottslighet bland asylsökande i allmänhet. Stapeldiagram broderades med siffror utan sammanhang, allt i en enda röra där läsaren inte uppmärksammades på hur siffror skall relateras till större trender.

Data är inte automatiskt lika med information. Siffror utan ett sammanhang (eller flera) är ofta missvisande, särskilt om man råddar ihop statistik om sexualbrott i allmänhet med sexuella övergrepp mot minderåriga.

Alldeles i slutet av artikeln intervjuade Mäntymaa en kriminolog som konstaterade att statistiken inte sist och slutligen kan berätta så mycket, bland annat av de orsaker jag nämner här. Men i det skedet hade läsaren redan format kognitiva strukturer på basis av den data som presenterades innan. Dessutom visade läsarstatistik under min tid som journalist att folk i genomsnitt endast läser 70 procent av de artiklar de påbörjar.

4. På grundkurser i statistik lär man sig se upp för kollinearitet, det vill säga ett nära förhållande mellan två variabler. Det klassiska exemplet är att glasskonsumtion verkar kunna förutspå båtolyckor eftersom båda sker i sommarvärmen. Susanna Reinboth och Juhani Saarinen – två av Helsingin Sanomats toppjournalister – påpekade under mediepogromen i januari att ålder och kön förklarar en stor del av den påstådda kopplingen mellan nationell bakgrund och sexualbrott. De är alltså i viss mån kollineära, vilket säkert stämmer, men med tanke på den oerhörda betydelse som de här stora mediehusen har så var det en otroligt slapphänt eftertanke. Hur är det med andra variabler? Hur påverkar till exempel antalet poliser i invandrartäta områden mängden anmälda brott? Vad är konsekvensen av att det i allmänhet både finns fler poliser och fler invandrare per capita i storstäder, och att invandrare därmed kan vara överrepresenterade i den nationella brottsstatistiken? Hur påverkar det faktum att sexuella övergrepp orsakar skam hos offret och att det bland många kvinnor är allmän kännedom att polisen sällan tar anmälningar om sexuella brott på allvar?

5. En komplex värld kräver komplexa modeller. I en akademisk artikel från 2007 undersöker forskarna vid Stanford Camelia Simoiu, Sam Corbett-Davies och Sharad Goel olika typer av snedvridningar (bias) i forskning som berör etnisk diskriminering. De konstaterar att många etablerade metoder inte lyckas skilja mellan diskriminering i komplicerade situationer. Det kan till exempel vara mer sannolikt att en viss grupp begår vissa typer av brott men samtidigt också oproportionerligt sannolikt att samma grupp bemöts av repressalier. Gruppen bemöts alltså med repressalier som inte står i proportion till sannolikheten att samma grupp begår ett brott (forskarna kallar det för inframarginalitet). Den här typen av statistiska fallgropar är svåra, om inte omöjliga, att upptäcka i den typ av enkel visuell ­dataanalys som på sistone framställs som hårda bevis för olika rasistiska brottsteorier.

Det är sist och slutligen vansinnigt att föra den här typen av debatt. De enda som har ett intresse av att förminska svåra statistiska frågor till enkla löpsedlar, är de organiserade rasisterna och journalister som av någon orsak vill ge dem utrymme. Varje svar på denna slags statistisk sofism måste därför utgå från att själva frågorna är absurda. Om alla modeller faktiskt har fel, men vissa är användbara, följer frågan: Vem är det som din modell gagnar?

EDIT 26 april kl 10:38: Länkar till Eero Mäntymaas, Hanna Hanhinens samt Reinboths och Saarinens artiklar lades till.

1 kommentar

Vifsi Rehnström 25 april, 2019 - 15:35

Den här slags analytisk kunskap vill jag ha. Tack!

Reply

Lämna en kommentar

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.