9/24/2024
#JP156: Tall, data og statistiske perspektiver for å forstå verden med Christer Thrane
Podcasten "Bærekraftseventyr med Jørgensen & Pedersen" intervjuer Christer Thrane, professor i sosiologi, om hans nye bok "Helt i mål: Lær statistisk tenkning med tall fra sportens verden". Thrane diskuterer hvordan sport kan brukes til å forstå statistiske konsepter, og viktigheten av å ha en kritisk sans når man analyserer data. Han kritiserer bruk av kompliserte modeller i forskning og mener at enkle metoder ofte er bedre. Thrane understreker også viktigheten av å forstå kausale sammenhenger og å ha en multikausal tenkning.
Podcasten diskuterer viktigheten av data for sirkulær økonomi og hvordan statistisk tenkning kan forenkles gjennom sport.
Samtalen belyser hvordan bruken av sportsdata, som expected goals, har utviklet seg i fotball, spesielt i Premier League.
Podcasten diskuterer hvordan enkle metoder kan gjøre statistikk mer tilgjengelig for folk, og kritiserer kompliserte analyser som skaper forvirring.
Podcasten diskuterer viktigheten av å forbedre matematikk- og statistikkforståelsen i samfunnet for å ta informerte beslutninger.
Det er viktig å forstå at fenomener sjelden har én årsak; flere faktorer spiller inn.
Transkript
Du hører på Bærekraftseventyr med Jørgensen og Pedersen. Bli med på eventyrlig jakt på bærekraftig business. Data blir bare viktigere og viktigere her i verden, og vi lever jo i en sånn datadreven tid og en datainfusert tid. Nå har vi akkurat kommet ut av klasserommet hvor vi har undervist noen ivrige masterstudenter i Sustainable Business Models om sirkulær økonomi, og der endte vi å bruke ganske mye av den forlesningen til å snakke om viktigheten av gode data for å få en sirkulær økonomi til å flytte. Data som ofte mangler. Vi har jo ikke data på det, og sånn generelt, vi snakket jo her sist gang også om hvor vanskelig vi mennesker har til å forholde oss til tall, særlig til store tall. Vi liker jo mer eventyrene hvor det er snakk om stygge prinsesser og... Er det kanskje greier? Jo, det er stygge og pene prinsesser. Og smarte og dumme prinser. Så det er mye, mye enklere noen ganger for oss mennesker å forholde oss til mye eller lite. Kan det også være det som er den dumme prinsen? Nei, jeg er for den stygge annungen. Ja, og som forsker så... så gleder vi oss over alt som handler om data. Vi kjører eksperiment både i felt og i lab, og vi kjører det i fotballsettinger og i vinsettinger og rundt omkring i verden. Så akkurat det å forsøke å tallfeste ting og forstå sammenhengen mellom tall, det ligger jo nært til vårt hjerte. Det er jo helt klart at gitt headingen på denne podcast-serien av Barkhals Eventyr, skal vi lykkes med å ta en stor jaffsa etter Barkhals-problemet, så vil en ganske stor del av det både være å kunne fange opp gode data på hvor vi er her, men ikke minst også data på sammenhengene mellom ting. Hva er det som fører til hva? Hva er det som faktisk virker? Og så videre. Og der har jo vi forskere en rolle å spille. Og hvis vi kan blande dette her med fotball og andre idretter, da blir jo jeg og du enda gladere. Sånn holder vi jo på i det daglige, blant annet med brandprosjektet vårt. Og derfor så var jo ikke det med lite jubel at vi så den nylig publiserte boka «Er det helt i mål?» Det kan vi komme inn på. Med undertitelen «Lær statistisk tenkning med tall fra sportens verden». Den boka er det vår kollega Kristian Trane og hun har sagt at tettest til din kollega i betydning av at dere pleier å jobbe sammen på høyskolen på innlandet tidligere, før du tok din snippsekk og flyttet til Bergen før Krister tok sin og flyttet sørover også. Og når jeg ser opp på hyllene foran deg her så står jo faktisk flere av Krister sine tidligere bøker her, blant annet en som heter Regressjonsanalysen. For Krister er jo en professor, en sosiolog som er veldig glad i og kompetent på statistiske metoder og på bruken av data og statistisk tenkning som altså er under tittelen på dine boka som da bruker sport for å forstå blant annet kausale sammenhenger og mye annet som har med statistikk å gjøre. Det er en glede, Kristian, å invitere deg inn i Berglas Eventyr Studio. Velkommen til oss. Tusen hjertelig takk for det. Har du alltid vært glad i tall, Kristian? Nei, det må jeg ærlig talt si at det har jeg ikke vært. Jeg starter vel som regel forelesningene mine med å si at de av dere som tror at man trenger å være god i matematikk og statistikk for å skjønne seg på statistisk analyse av data, de kan ta det med ro, for jeg fikk nok karakter 0 i matematikk på videregående, så jeg hadde ikke noe anlegg for det i det hele tatt. Men likevel har du gjennom disse årene tatt byrden med å være den som skal lære opp både nye generasjoner, men jeg var på vei inn et annet sted. Du skal både lære de som var på høyskolen innlandet og er på høyskolen innlandet, men også i hele verden. Den der... statistiske verden og det der paradokset der kan ikke du fortelle om det? Hvorfor har verden har du gått inn i statistikken med den bakgrunnen som du har? Nei, det kan du si. Det startet nok litt sånn tilfeldig at jeg begynte å studere sosiologi. Ikke fordi jeg visste så mye om det, men akkurat der og da så det ut å passe for en som ikke hadde all verden av Vartsjums karakter en gang i tiden. Så det var veldig passende, og da skal man jo gjennom et metodekurs, samfunnsvitenskapelig metode, når man begynner å studere. studerer sosiologi, og det jeg da fant ut, det var vel egentlig at jeg skjønte veldig, veldig lite av kvalitative metoder. Det ble veldig lite håndfast og veldig lite to streker under svarene. Mens det var en viss systematikk og orden i denne kvantitative verdenen, så på tross av at jeg da på en måte i utgangspunktet var stein stokk teit i matematikk, så fant jeg ut at dette må jeg bare lære meg. Og så måtte jeg på en måte rett og slett tvinge meg ned og sette meg ned og starte på nytt igjen og lære meg de nødvendige tingene man må kunne. Men det er jo ikke så veldig mye av disse basistingene man lærer i matematikk på ungdomsskolen og videregående skole som man da trenger egentlig. Forstår man et gjennomsnitt, og forstår man at et gjennomsnitt kan være forskjellig i to grupper, så er det ikke så veldig mye mer som man egentlig Da har man et veldig godt utgangspunkt for å lære seg disse tingene. Når jeg da omsider lærte meg dette her, og i den prosessen med å lære meg disse tingene, så så jeg også det at disse lærebrøkene i statistiske analysemetoder, dataanalysemetoder, de er jo utenfor skrevet av folk som er skitgode i dette i utgangspunktet. Og de ser ikke hva som er vanskelig, og disse bøkene er skrevet for andre mennesker som er like gode som dem. Og de er veldig vanskelig tilgjengelige for alle de der ute som har talskrekk, vansker med matte og som sleit med matematikken på videregående skole. Og når jeg da noen år senere i livet kom ut i yrkeslivet og skulle begynne å undervise folk, og jeg så at det var ikke bare den læreboka jeg hadde hatt på master og grunnfag og så videre og det hele gangen der som var vanskelig, alle bøkene var fryktelig vanskelig tilgjengelig og da dukket det opp den ideen at kanskje prøve å skrive bøker i dataanalyse statistisk analyse som er myntet på folk som kanskje synes dette er vanskelig ikke for alle de som allerede kan det Check it out! Og så er det jo da i disse årene fra at du tok atsium, Krister, og i tillegg drive med idrett. Det kommer vi inn igjen på. Fordi at nå har du jo skrevet denne boka som handler om å bruke innsiktet fra sportens verden til å forstå statistisk tenkning. Og i disse årene mellom din artium og dine boka kom ut, så er det flere ting som er skjedd i verden. Blant annet har vi gått gjennom en stor empirisk revolusjon i samfunnsvitenskapen generelt, og ikke minst i økonomifag. Det har vært veldig nye empiriske metoder med fokus på det å forstå økonomiske sammenhenger ved hjelp av eksperiment og andre typer metoder. Og så samtidig har det skjedd noe som er veldig, veldig fascinerende i idrettens verden. Og det er jo at du plutselig nå kan sitte, jeg kan sitte ned på gressmatta her på Stemmemjørnstadion hvor døtteren i mine spiller fotball. Og så kan jeg sitte og snakke med en 11-årig gutt, og så kan han snakke om expected goals. Begynne å bruke begrep som er dypt, dypt infusert av statistisk tenkning. Når vi vokste opp og så på fotball, så var det litt sånn at det ene laget var gode, og det andre var dårlige, og det var som regel det laget du likte godt som var best. Men de som skåret flest mål, de hadde jo hatt en veldig god kamp, og de som skåret overforengt ble litt grann. Men vi hadde liksom en litt sånn naiv forståelse for eksempel av idrett, mens i dag så sitter jo da til og med disse 11-åringene og snakker om sånne ideer som at jo, men det andre laget hadde jo mye høyere expected goals, så selv om de tapte 3-1, så statistisk sett burde de ha vunnet 4-3. Og det skjedde samtidig. Det er kjempeinteressant, og det er jo nettopp, altså, i forhold til det du sier at, altså, i mulighetene som samfunnsfagene nå har for å trekke sterkere sånne kausale årsak-virkningssammenhenger, så er jo nettopp sportsdataene, alle dataene som lagres i i forbindelse med sportsarrangementer og fotballkamper og basketballkamper. Det er jo veldig mye som egentlig startet i amerikansk fotball selvfølgelig, og baseball, hvor man førte seg til alt mulig. Og det er jo interessant at en av de landene som, jeg var oppe i en diskusjon her om dagen i forhold til at en av de stedene hvor dette skapet kom senest var jo i Premier League, som kanskje er den mest konservative av alle sånne ligaene, og Arsene Wenger, som trente Arsenal i mange år, han var en av de første som tok i bruk dette med expected goals. Og en av de første tingene, han var en av de første pressekonferansene han hadde, etter en av de første kampen han hadde hvor Arsenal da taper 2-1 for et presentivt dårligere lag, og så sier han det og de kastet seg over den journalisten og sier at er det mulig å tape for disse her som har slått slått 17 ganger på rad, og så videre, og så videre. Så sier han det at jeg er ikke så veldig skuffet, fordi at på Expected Goals kjørte jeg analysen, og vi burde vinne i 4-2, og da ble han, og vi tatt 2-1. Så jeg kan jo ikke score for gutta, men vi skapte bra med sjanser, så ifølge Expected Goals burde vi vinne i denne kampen 4-2 eller 5-2, og da ble han også holdt. hånerledd av, av den engelske pressen, som sa at vi måler da ikke fotball i expected goals, vi måler i faktisk skårte goller, men det viste seg jo på sikt at han fikk jo rett, nå gjør jo alle dette i England, 10-15 år senere, men den gangen så var han helt fremme, og han var jo altså, engelskoppa var jo langt tilbake i forhold til basketball og baseball og sånn i USA, men for der kom jo mann i bål allerede på tidlig på 2000-tallet, mens i Premier League så tok det både 10 og 15 år mer enn det. Og tror du Kristian, når du ser inne i spåkula da, at når han her er 11-åringen da Hvis du noensinne blir Hassin foreleser i samfunnsvitenskapelige metoder når han blir 20 kanskje, forventer du at det kommer en generasjon nå som har bedre statistisk intuisjon? Forbi at, altså vi, dette henger jo også sammen med en annen sånn mer generell megatrend som er at vi har blitt mer opptatt av data generelt. Vi får data på alt mulig. Vi har skritteller på armen eller på telefonen vår. Vi har liksom alle disse tallene vi følger med. følge med på hele tiden. Vi har jo hatt vår kollega Helge Thor Bjørnsen tidligere i denne serien til å snakke om hva hans tall skal og hva det gjør med oss at vi driver og veier og måler og følger med på alle disse tallene. Men tror du også at det vil bli sånn at dine generasjoner som vokser opp nå har bedre statistisk intuisjon enn vår generasjon rett og slett fordi at de har levd Det er altså vokst opp i en verden hvor vi begynner å snakke i disse tarmene og begynner å kikke på disse tallene bak virkeligheten. På noen områder definitivt ja. Det er jo litt sånn paradoksalt at det er en del mennesker som går rundt oss og kan si at jeg forstår liksom ingenting om statistikk. Og iensetning også kan man si etterhvert. Men for øvrig så lar jeg merke til nå at Johannes Tegnesbø har en utdeling på 85 prosent på Ståne. Og det er jo ganske interessant, for i denne rubrikken sier du at du ikke kan statistikk, mens i den andre rubrikken, det å skjønne hva en utdeling på 85% er, det er faktisk en ganske type tenkning, hvis du ser verdenshistorisk på det, så er det jo en type tenkning som vi har gjort de siste 50-60 årene. hvor det er fortid, mens i alle tidligere tider så skjønte vi ikke sånne frekventistisk sannsynlighet, ikke sant? Dette er jo helt nye ting, men som du sier, dette fikser jo tolvåringen som har følt med på Expected Goals, det tar han eller hun helt intuitivt. Kanskje jeg kan innrømme det nå etter veldig mange år at når jeg var ungdomsskolelærer ved CAR mens jeg kjørte ambulanse på Håkonsvern i i sjøforsvaret hadde jeg jo ikke på en uke av så jobbet jeg som lærer og da fikk jeg en gang en sånn gruppe med sånne problemelever den gangen så ble jo de puttet inn i et rom etterbundet heldigvis det blir mange år siden nå og der måtte de liksom sitte og så sa de til meg Lars Jakob du får gå inn og se om du kan lære deg noe matematikk og jeg tror noe er sånn foreldelsesgreier jeg kikket inn så jeg kan jo fortelle at måten jeg gjorde det på var jo å lære for eksempel sånn ja hvis du blanda ut hjemmebrent med en viss prosent og så så mange lite, så lærte vi om prosenter og utblanding vi snakket om kubikk, husker jeg, dette var jo på landsbygda så vi lærte om vi lærte om kubikk ved å snakke om sånne trimma mopeder og greier, så det var jo en måte å lære matematikk, og jeg kjenner at jeg er sånn veldig optimistisk på at idretten her kan være veien til å lære mer om disse tingene som som liksom skal være så kjedelig, men som plutselig når du putter det inn i Premier League, så blir det litt gøyere. Jeg har fått lov til å jobbe med deg i flere år, Kristre. Jeg husker deg komme løpende nedover gangen, bli som en lerke, for nok en gang så hadde du ertet på deg noe fagfelt i et nytt fagområde. Sånn som jeg husker deg på den tiden der, så tok du fagområde etter fagområde, og så argumenterte du og kjeftet på dem på pent akademisk vis, men du kjeftet på dem fordi de brukte alt for komplisert. metoder til å finne ut ting som de egentlig burde ha skjønt mye, mye bedre. Så du kom tilbake og så hadde du sagt at du kunne fyllerista et fagfelt som hadde laget noen ordentlig kompliserte matematiske, statistiske modeller, og så skrev du artikler, og så viste du dem at du kunne finne ut vel så mye for akkurat de samme svarene og kanskje til og med bedre svar ved å bruke mye enklere metoder har det vært et sånt prosjekt for deg? et sånt pirat prosjekt? har det vært et sånt grillet soldat på vegne av de som ikke forstår matematikk og statistikk? eller hvordan har dette her utviklet seg? ja, nei, altså når du sier det så tror jeg jo nok uten at jeg hadde tenkt på dette når jeg begynte med det men det er jo klart at dette henger jo ihop Når du har møtt alle disse bøkene med disse selvhøytidlige statistikerne som på en måte gjør det på den riktige måten og tar alle forbål og så videre og så videre og så videre. kobler det mot dette hjåleriet som det er i en del statistiske sirkler i forhold til nettopp å ligge i front og ha de nyeste metodene og hele tiden på en måte bruke det og ikke minst så er det jo også blitt sånn at de nye metodene skal du nå få antatt en artikkel i et tidsskrift i dag, så er en av de tingene nyhetsverdi som vi ser på, og det å bruke, hvis man da på en måte kan velge mellom å bruke mellom en etablert metode og en ny metode som på en måte sier i og for seg da de samme tingene som den gamle, men på en litt mer komplisert måte, så er det faktisk at det på en eller annen måte teller som et originalt bidrag. Sånn at det å uttrykke seg skriftlig, og bruke mer kompliserte algoritmer, og bruke mer kompliserte formler og språk, det gjør på en måte i hermetegn forskningen bedre. Det som du er inne på, Sveinung, det har nok jeg blitt veldig irritert på. Og så har jeg på en del sammenhenger sagt at her ser vi hvordan det ser ut med denne nye offensivmetoden, her ser vi hvordan det ser ut med en xy-graf etter den gamle metoden. Så kan dere se på dette og se hvor forskjellene er. Og forskjellene er jo da overhodet ikke til stede. Sånn at det eneste man egentlig oppnår ved å bruke disse mer kompliserte offensivmetodene er at man rett og slett ... støter fra seg alle de leserne som kunne vært med på å skjønne resonemanget hvis du hadde brukt en enkel metode. Men de får jo ikke noen anledning til å være med, for de har ikke orket å lese seg på disse tingene, og de forstår dem kanskje ikke heller. Men hadde man brukt den vanlige metoden, så kunne du faktisk nådd ut til fire ganger så mange lesere, fordi de hadde et matematikkunnskap som på en måte bare tok dem så så langt. Og det er helt riktig, det har jeg gjort i flere sammenhenger. Jeg husker jeg og Sveinung koste oss veldig med å lese Jon Elster sin bok Explaining Social Behavior. For en del år siden, jeg tror han ga den ut på Cambridge University Press på midten av 2000-tallet. Og i den boka så gjør han et skille som jeg liker veldig godt, fordi I forskningssammenhenger er det nok av eksempel på at en eller annen person med kvantitativ tilnærming kritiserer og raljerer over det kvalitative, eller vice versa. Forskere med kvalitative tilnærming raljerer over det som er kvantitativt. Men Elster er veldig flink til å sparke med begge bein, og i denne boka skiller han mellom det som han kaller skjerm, soft obskurantisme, altså det å prøve å tåkelegge noe ved hjelp av massevis av komplekse ord og rare begrep og sånt som gjør det vanskelig gjennomgriplig, men så sa han også, og det passer vel med det som du var inne på her, at det finnes jo også en hard obskurantisme, altså det å pakke inn ting som egentlig er ganske enkelt i da sofistikert og aller helst veldig komplekse metoder, enten det er økonometriske eller andre. Og vi deler jo denne fortjærligheten din for deg enklere tilnærmingene til. For er et spørsmål godt formulert, så vil jo det ofte også være godt testbart, om ikke enkelt testbart, så i alle fall ganske rett fram testbart. Og nå skal jeg prøve meg på en liten bro her da. Fordi En ting som slo meg når jeg kikket på boka, det er jo også for så vidt måten boka er omtalt på. I omtalen fra forlaget så begynner det med at mediebildet bombarderes med nyhetssaker basert på statistisk analyse, og av og til er det enkelt å forstå, ofte er det ugenomtrengelig og usikkert. Og det der er jo en sånn utfordring i en verden hvor for eksempel fake news begynner å bli en større og større problemstilling. Men ikke bare fake news, men også det at vi blir, som jeg i din språk trakter, bombardert med så mye informasjon at det da også kan være lett å... å mislede folk ved hjelp av analyser som da kanskje kan være feilaktige og som kanskje kan vise noe annet enn det som de hevder å vise. Og dette har jo blitt en litt sånn crusade rundt noe du har. Andrew Gelman, forskeren borte i USA, som har en blogg hvor han avdekker en del sånne ting du har Du har mange aktører som holder på i dette landskapet. Alex Edmonds, professor i finans, som vi ofte snakker om i denne serien, har nettopp gitt ut ei bok som heter May Contain Lies, som handler om hvordan statistiske metoder og forskningsmetoder blir misbrukt for å fremme missvisende argumenter eller posisjoner. Anser du deg selv for å være en del av dette samme du skjønner gjerne hvor jeg vil for dette her er jo ting som faktisk har stor samfunnsmessig viktighet og potensielt kan være veldig skadelig i et samfunn hvis disse verktøyene blir brukt for negative formål Ja, ja, nei, så absolutt altså til syvende og sist som du er inne på Lars Jakob så er det klart at når altså Mediebildet og journalister og sånt, de publiserer jo gjerne klikkevennlige ting, hvor det kommer enkle sammenhenger, rapporter fra mer eller mindre obskure studier gjort i mer eller mindre obskurige laboratorier og land, og så videre og så videre. Og du får jo noen sånne åpenbare spis, så mye gullerøtter, og faren for den og den type kreft går ned med 70%. noen halv prosent, ikke sant? Og sånne, ja, det finnes veldig, veldig, veldig mye rart som serveres av statistiske sammenhenger, og det er mye som går galt. En ting er jo, som du tok opp i starten, en ting er jo på en måte at man rett og slett har dårlig data. og at man selvfølgelig har et dårlig studiedesign, og at man kanskje har bare sånn typisk tversnittdata som gjør at man på en måte ikke klarer å utelukke alternativ årsaker. En annen ting er jo at man på en måte rett og slett i samme sammenhenger har gjort dårlige valg i forhold til at man ikke engang har klart å bruke de beste metodene som finnes også under de forutsetningene. Og en tredje mulighet er jo rett og slett at datene er dårlige, fordi det kan være for eksempel sånne enkle ting som feilpunschinger i data, ikke sant? Altså tall mangler, og så videre, og så videre. Det er jo en berømt sak med to økonomer, som finner en sammenheng mellom to økonomiske variabler som ender opp som policygivende og endrende. At politikere foregjør som gjør makroøkonomiske endringer som følge av en studie. Og så viser det seg nå rett på at denne studien er basert på en studie av 200 land. Og så var det på en måte, av feil i regnarket, så var det bare 180 som ble med. Og hvis de 20 siste er med, så forsvinner den sammenhengen som på en måte var der. Og de er jo sånn hendelig uheld. At det skjer fordi at data er dårlig, eller det gjøres en glipp. og alt som bidrar til å kaste lys over sånne type ting er jo veldig bra ting her var jo disse to økonomene som ikke jeg husker navnet på farta de var jo helt uskyldige i den forstand at de hadde gjort alt riktig og kodene var med og så videre og så videre så var det bare noen andre som fant at analysen var basert på 180 land i stedet for 200 og det endrer totalbildet Det er jo en ting, det andre, den grelle saken er jo de som på en måte har på sin manipulere regnarket, og flytter på kolonner og tall og så videre og så videre for å få de svarene de ønsker seg, og da er vi over i et ballgame som dessverre også viser seg å ha, hvor det er mye, mye mer ut av rett og slett datafabrikasjon, er rett og slett et mye større problem med det vi har trodd før, og Alt som bidrar til å få trollene ut i lyset i denne sammenhengen av Andrew Gelman og alle sånne folk, det er jo veldig bra, og i den grad jeg kan gjøre mitt lille bidrag i denne sammenhengen til å få folk mer... bevisste rundt disse tingene ved å skrive sånne bøker som er sånn populærvitenskapelige og som på en måte bidrar til at folk får litt mer følelse for hva som er bra og hva som er dårlig og hva som kan funke og hva som ikke funker og hva som kan være skummelt og hva man bør se etter det mener jo jeg er viktig til syvende og sist for at vi skal opprettholde et demokratisk samfunn på en måte Du møter mye folk, Krister, som ikke nødvendigvis kan statistikk. Og Lars-Jakob har de optimistiske hjørnene her med 11-åringen, som visste om expected goals, og dere reflekterte litt over det. Men generelt, har du noen tall på... hvor gode eller hvor dårlige vi mennesker er på å skjønne grunnleggende statistikk og bruke det, og ikke minst det som du er oppsatt av, disse kausale sammenhengene. Hva er sammenhengen mellom å velge en treningsform og resultatene av det kontra en annen treningsform og resultatene av det? Har vi egentlig den intusjonen som skal til, og har vi den kunnskapen som skal til, og hjelper opplever du med å gi oss folk kunnskap om dette her? Her er det flere spørsmål og flere svar. Men for det første, når det kommer til den generelle kompetansen man har, så tror jeg nok at for eksempel det norske skolesystemet har en innretning som gjør at veldig mange, altså matematikkundervisningen i videregående skole i Norge, den funker ikke. Det tror jeg vi alle kan si. Og en av konsekvensene av det er jo blant annet at veldig mange velger jo å ta, eller fikser ikke matematikk, og de får muligheten til å velge bort matematikk. Og når de da må på en måte for eksempel i samfunnsvitenskapelige utdanninger inn og ta matematikk igjen, så har de veldig dårlig ballast når de starter, for de har valgt bort alt de kan av matematikk og har bare et minimum. Så det er jo et problem i en viss forstand at alle som starter å studere, og spesielt i samfunnsvitenskapelig utdanning, de har veldig mange av de alt for dårlige matematiske bakgrunner. Men når det er sagt, så er jo min erfaring at ... at det handler veldig mye om å dra opp den rullgardina som folk har når de kommer inn og møter matematikkfaget for første gang. Og statistikkfaget ikke minst. De er rett og slett redde. De har et selvbilde hvor de sier til seg selv at «Jeg kan ikke dette her. Dette er fryktelig vanskelig. Jeg har ikke mattehue, så dette kommer jeg til å slite med». Så jeg tror at veldig mange av vi som underviser i sånne fag, det handler om at vi drar opp rullgardina for folk. og gir rett og slett folk truen på seg selv igjen, og klarer å bruke eksempler og læringsmåter, som for eksempel innebærer mindre bruk av algebra, mer bruk av substanseksempler, mer bruk av visualisering, sånne type ting som gjør at det blir lettere å lære. Og da tror jeg folk kan være med på det meste. Det er den ene biten av det. Den andre biten som du tar opp, Sveinung, som er litt interessant, det er jo litt sånn paradoksalt at det som på en måte, den måten å tenke på som krever absolutt minst av matematisk kompetanse, og som samtidig er den sterkeste testen på kausalitet, det er jo et eksperiment. Det er ingenting som er enklere å forklare for studenter enn logikken i et eksperiment. Og du trenger ikke kunne noe matte i det helt tatt, annet enn eventuelt et gjennomsnitt og et gjennomsnitt i to grupper. Og så er på en måte et eksperiment veldig lett å forklare. Og det er den sterkeste testen som vi har vært på i sted i forhold til det å påvise kausalitet. Så denne som du tok opp i begynnelsen, Lars Jakob, denne kredibilitetsrevolusjonen i økonomi blant annet, Angrist og Piske, handler jo blant annet om at vi må ta økonomifaget tilbake til den enkle settingen hvor vi har to randomiserte grupper som sammenlignes. Og da er rett og slett forskjellen i gjennomsnitt i de to grupperne, det er kausaleffekten og det er faktisk veldig lett å vise intuitivt og veldig lett å vise med algebra. I en verden hvor vi har store problemer knyttet til samfunnsmessige og miljømessige utfordringer, som veldig ofte denne serien beskjefter seg med, men også med generelt bedrifter som skal ta beslutninger under usikkerhet, så ønsker en å bruke data for å ta bedre beslutninger. En ønsker å forstå sammenhenger, hva det helst, kausale sammenhenger, og av og til skal en ta beslutninger som en ikke har gode data på, fordi at en nettopp prøver å se inn i en verden som er usikre, og hvor en ikke vet om dette produktet vil fly, eller om denne her resirkuleringsprosessen her vil fungere og vil la seg skalere. Så den skal liksom ta massevis av store krevende beslutninger som kan ha store konsekvenser på både seg selv og andre parter under denne typen usikkerhet. Hvis vi skal utfordre deg med denne boka som utgangspunkt, for det som den gjør så godt er å bruke disse kontekstene som vi kjenner så godt, enten det er fra fotballen eller du nevner basketball og det er hockey, og det er ulike kontekster hvor du kan bruke data for å informere beslutninger, for å ta beslutninger. Hva er det viktigste, hvis du skulle oppsummere noen takeaways fra boka som kan anvendes også i helt andre sammenhenger, hvor vi trenger bedre statistisk tenkning? Hvis du skulle løfte frem noen temaer som du mener at beslutningstakerne både i politikken og i bedriftene som skal løse disse store problemer vi står overfor, hva er de statistiske takeaways fra boka som du aller helst skulle ønske at de fikk under hodet? Nei, det ene er jo at man på en måte må ha litt sånn et drulighet, eller for det første så må man akseptere usikkerhet. Det må man bare, som det enkelte sier, man må omfavne usikkerhet. Det er en del av verden. Man kommer aldri til sikre beslutninger. Og i den grad man ønsker å ta sikre beslutninger i næringsliv eller hvor det måtte være, så må man i forhold til om noe virker eller ikke, så har man ikke noe valg. Da må man over i en eller annen form for eksperiment. eksperimentell tenkning og gjøre det. Men det har man jo ofte ikke så mye valg på. Det kan være sånn at den muligheten eksisterer jo ikke, og da er man overlatt til sånn typiske spørreskjema-data eller sånne tradisjonelle data hvor man samler inn informasjon om dette og hint, og da må man jo kunne litt om statistikk og lære seg noen sånne basale ting, men i den sammenhengen så er det veldig viktig, tror jeg, at man ikke går seg opp i sånt som politikerne ofte gjør, at de går i sånne mono-forklaringer, altså at de sier at ting bare har en årsak. For det har ikke ting. Det er gjemt over veldig få fenomen som på en måte skyldes en ting. Så hvis man ser at det eller det skjer, eller det eller det ikke skjer, så skyldes ikke det sannsynligvis bare en annen ting som enten er til stede eller ikke til stede. Det er sannsynligvis både tre eller fire andre ting som kan tenkes å påvirke det fenomenet du er opptatt av. og det å sette seg inn i tenkeboksen og tenke på hvilke andre fenomen enn det som er min mavefølelse kanskje, som er en årsak som kan tenkes å påvirke det er veldig god trening gjør man det, så utvider man horisonten og så blir man veldig ofte åpen på at dette fenomenet her kan skylles flere fenomen, og alle de fenomenene kan potensielt sett være noe som vi kan også manipulere, påvirke i forhold til å få de endringene vi ønsker. Johannes Tignes Bø gikk på 24. Er det Det er det du bruker tallet 24, dette magiske tallet 24, og du spinner jo videre på denne boka di, og 24 det går jo på hvor mange minutter han brukte på en, hvor lang var den sprinten, Kristi? Den er vel da temmelig nøyaktig i 10 kilometer? Ja, og da skyter de to ganger. De skyter to ganger? Ja. Så går de på ski først 3,3 kilometer, så 3,3, og så 3,3 til slutt. Jeg satt og leste denne boka på en reise her for litt, og fulgte det fra 24 minutter, og så driver du og spiller på en navn som ikke skal nevnes. Han som kom på sisteplass, kan du si det? Ja, nei, altså, nå husker jeg jo ikke om han var... Det er en fransk mann, han nevnes i en sluttnote på side 237. Jeg beklager. Jeg burde ha lest sluttnoten også. Men ja, jeg avslører navnet på han som kommer sist også. Men jeg er veldig snill. Men du er flink da, for du... For meg som har lest mange statistikkbøker, altså lest dine, men jeg bruker det litt forskjellig i hverdagen. Så det er alltid godt å bli frisket opp, men det å følge da... skiløpe på antall minutter og så drar du opp ting som gjennomsnitt og drar opp maksimum, han som gikk på mest tid opp mot han som brukte minst tid, hva var gjennomsnitt og hva var median og så drar du dette her videre og så ser du på disse ulike formene for krebsualitet på sammenhengen mellom valg av sko og sånn og slik og du drar opp dette her, men jeg satt og hørte hva han sa så tenkte jeg den der multi Typel regresjon, dette her må ikke bare ha en en forklaring på alt, er det nok med en sånn type bok? Og det må være fryktelig frustrerende å være så god på den type regresjon, hvor det er flere grunner til at noe skjer, og dette kan vektes ut fra data. Det må være ganske vondt å gå rundt i livet og se disse tingene, og så oppleve hvor mange andre som da blir svart-hvit, og hvordan i all verdens navn og rike skulle vi fått inn mer multiple regressjonsanalyse? Hjelper det med en sånn type bok? Eller hva er det som virkelig skal til for at vi blir flinkere til å vekte de ulike grunnene til at noe skjer? Ja, nei, det, altså, for å si det sånn, en gang var jo jeg en ung mann, og jeg lærte meg multiple regelsjon, og da var jeg nok fort der at jeg tenkte at dette burde være obligatorisk voksenopplæring for alle. Ikke sant? Altså, i den forstanden at det er sunt å tenke i sånn multikausalitet og ikke monokausalitet. Det tror jeg vi alle syns, og så har jeg selvfølgelig da moderert meg og sluttet å irritere meg over det, fordi at man kan jo ikke gå rundt og irritere seg hele livet. Da hadde jeg jo hatt flere magesår enn det jeg allerede har hatt. Men at... denne prinsipielle tenkningen rundt multiple regressjon at det er en sunn og poenget er jo at man trenger ikke kunne det matematiske, jeg kan heller jeg kan jo ikke matematikken i dette, men jeg skjønner den prinsipielle tenkningen rundt det og jeg skjønner at og multiple regressjon hvis det blir forklart på en fornuftig måte så er det mulig å se nettopp som du sier vekte at ulike ting bidrar til ulike ting skal du løpe fort på en halvmaraton så er det klart at skoene kan være viktig dagsformen kan være viktig vekta kan være viktig kostholdet ditt kan være viktig hvor mye du trener kan være viktig hva slags sammensetning av trening kan være viktig og det å nettopp da tenke seg at du ønsker å få best mulig tid, det er jo om å fokusere på de årsakene som på en måte som faktisk gir noe heller enn de årsakene som kanskje ikke er så spesielt viktige Også er det sånne rare ting som selvfølgelig kommer opp i livet, at apropos forskning som på en måte er sann og ikke sann, altså jeg har jo et sånt kolestrolnivå som dessverre er veldig høyt fra naturens side, og jeg må jo spise piller for å holde det nede, for dette får jeg ikke gjort noe med, men der har jo medisinsk forskning i de siste 25 årene, de har jo sagt noen 3-4 år, så har de sagt til Kristel Trane at bare spise egg, det går helt fint. Du får litt høyere kolesterol, men det spiller ingen rolle. Og så går det en 3-4 år, og så er det plutselig «Nei, nå skal du ikke spise egg». Og da spiser jeg jo ikke egg. Og så er det en 3-4 år til «Nei, egg går helt fint». Sånn har jeg holdt på i 25 år og vært sånn «Periode, egg spiser». For noen ganger er det farlig, andre ganger er det ikke farlig. Men sånn er det jo med medisinske sannheter. Det sier seg at de varer i to år i gjennomsnitt. Det er jo et interessant kontekst, altså det med medisin, hvor en ønsker seg så veldig, eller i hvert fall mange ønsker seg, disse enkle svarene i verden, hvor det sjelden er enkle svare, men de skal ha en VG-forsyning hvor det sier, spis granateple kjerne, så slipper du å få prostatakreft, eller hva det nå måtte være. Og så er det sikkert en studie etter annet sted som viser at de som spiser granateple kjerne, de har en x prosentpoeng lavere sannsynlighet for prostatakreft, særlig hvis det er i sammenheng med trening og ditt og datt, og dette vil du ha på alle mulige områder. Og i vår verden med bærekraftsproblemer og løsninger på bærekraftsproblemer, så er det jo på en vis enda verre. Fordi det er komplekse system med feedback-looper og sammenhenger, og klimaet påvirker økosystemet, som igjen påvirker klimaet, og så er det det gode enda. Og hvordan i all verden skal vi gripe an disse virkelig komplekse systemene? Hvordan bør vi tenke rundt måten statistisk tenkning og internett kan og noen ganger kanskje ikke kan hjelpe oss til å make sense av verden i disse komplekse systemene som for eksempel bærekraftsproblemer. Enten vi snakker om sosiale bærekraftsproblemer som fattigdom og you name it, eller disse miljømessige systemene som er så sammensatte. Jeg har klokketro på sten på sten-prinsippet og at man ikke skal prøve å angripe systemer i sin helhet, men ta ulike deler av systemet og se på sammenhengene på mikronivå. Og så pinner man litt ut av det, og så flytter man fokus litt til venstre, og så bygger man litt der, og etter hvert så begynner det å krystallisere seg et stort bilde. Det er litt sånn interessant på en måte, denne historien kjenner dere jo sikkert til, men på et eller annet tidspunkt så ble jo på en måte røyking farlig for lungekreft, mens tidligere så var det på en måte ikke farlig for lungekreft, selv om man egentlig hadde visst at det var farlig lenge. Men det var ikke en studie som bare kom og sa at nå er vi sikre på at at røyking gir lungekreft. Poenget var at på et eller annet tidspunkt så var det så mange ulike bevis for ulike former for data, ulike typer undersøkelser, ulike typer befolkningsgrupper, ulike typer longitudnelle undersøkelser, som summa summarum sa at nei, vi kan ikke lenger holde på å tro at at røyking ikke faktisk leder til lungekreft. Det kan alltid problematiseres med enkeltstudier, som blant annet den salige Ronald Fisher, var jo en som kjempet for at og påpekte alle statistiske feilene i de studiene som påpekte at her er en sammenheng, fordi det kunne for eksempel være sånn at de menneskene som var tilbøyelige til å få kreft, de hadde en genetisk disposisjon til å like røyk. Så det var på en måte denne disposisjonen som førte til røykingen og at kausaliteten egentlig gikk motsatt vei. Det var mange sånne forsøk på å holde røykingen, å prøve å gi røyken en fripass, for øvrig veldig godt. portrettert i en amerikansk film som heter Thank You for Smoking som handler om en advokat som nettopp driver og slår høl i alle disse studiene som enkeltstudiene som på en måte kommer frem for det var jo mange søksmål mot tobaksindustrien i forhold til å få erstatning for lungekreft Men igjen, det kom på et eller annet tidspunkt en sånn Cochrane-studie, en sånn oppsummering, hvor de bare konkluderte med at det er så veldig mange forskjellige små studier, og legger vi alle disse det sammen, så må vi bare trekke den endelige konklusjonen, og litt sånn parallelt til det, at når vi skal angripe store fenomen, så må vi på en måte starte i det små, legge sten på sten, og til slutt så ser vi en mosaik som taler et ganske tydelig språk. Det er et annet språk som er populært om dagen, disse språkmodellene som vi har nå, og som har blitt forklart for meg som å være sånn, skal man si, sånn statistikk sannsynlighetsberegningsmodelle på anabolesteroider, altså som klarer å lage for meg god tekst, bare basert på sannsynlighetsberegning av hva som skal være det neste ordet. Har du nok statistikkforståelse til å skjønne det som skjer rundt oss nå, Krister? Og hadde du fantasi en gang til at denne statistikkkunnskapen og sannsynlighetsberegningskunnskapen skulle nå så langt som vi ser den gjør i dag? Nei, altså, denne KI generelt og KI i forhold til statistikk, det kom som julekvelden på kjerringa som det heter, det tror jeg nok mange kan si. Og det er klart at det eneste, for å si det litt enkelt, KI er jo veldig mye bedre på ord enn den er på tall foreløpig. Men det er jo bare et spørsmål om tid før det blir ikke minst en sånn bro mellom de tradisjonelle statistikkprogrammene og KI og denne kodebiten som på en måte er mellomtingene hvor det å hvor det å gjøre statistikk og gjøre statistiske analyser det blir nok enklere for noen å gjøre fordi at man i en viss forstand trenger ikke gjøre det, man kan bare be en KI om å gjøre det for deg, og det er bare det har vi bare sett helt begynnelsen på. Men allerede nå så har jo jeg, altså alle, eller ikke bare jeg, men dere har sikkert lest i Krono at folk som nå driver og lager finans- og statistikkeksamler med bruk av programvaren R, som er en sånn open source kode, de har jo måttet slutte med hjemmeeksamler, fordi at studentene kjører bare BRK i om å finne R-koden for dette her, og så kommer det bare opp i løpet av 20 sekunder. Så det er jo helt... Ja, altså statistikkundervisning og ikke minst sånn eksamensordninger i forhold til KI og statistikk. Altså det her må man... Jeg har liksom tenkt at nå er det sånn at vi faktisk må tilbake og begynne å regne kikvadrat for hånd med blokk og papir, liksom. Men det er jo ikke løsningen det, for det at... Jeg mener jo at er det noe som virkelig har gått gærent i statistikken, så er det jo litt av det at vi driver og regner for hånd fortsatt faktisk. Fordi det er jo ikke det man gjør når man holder på med statistikk i analysearbeid. Da gjør jo komputeren dette. Så det er jo det å ha forståelsen med komputeren og hva du trekker ut av komputeren og sånt som er viktig. ikke reimatematikken som foregår i bakkant, liksom. Og da blir nettopp denne statistiske intuisjonen og statistiske tenkningene som boka de så veldig flott viser frem gjennom disse mange eksemplene fra sportens verden så mye viktigere, for det er nettopp 11-åringen som sitter der og skjønner konseptet Expected Goals, så kan det fortelle oss om en statistisk forståelse av verden som er det sentrale. Og jeg skal dra det tilbake til utgangspunktet i det vi går inn for landing her, Krister, fordi som du skjønner, så er jo du blant venner her i dobbelt forstand, altså også i den forstand at vi har jo også klokka utro på dataene og de statistiske metodene sin verdi for å forstå verden. Men hvis vi skal avslutte med en om ikke problematisering, så er Det var Og i dag tror jeg det er litt mer sånn at når du blir byttet inn på en Premier League kamp, så får du beskjed om hold deg primært i zone 4, fordi at i den, og nå er selvfølgelig banene delt inn i zone, og vi vet statistisk sett hvor spillet vil være nå de siste 12 minutterne, så hold deg i zone 4, og så videre. Så Og det der kan være et bilde på den dreiningen mot en mer datadreven verden, der vi har mer data, der vi bruker dataen smartere, og der vi vinner veldig, veldig mye på det. Eksemplifisert med Moneyball i baseball, som du nevnte, og det vi har sett i idretten mer generelt. Men, skal jeg forsøke en siste lille utfordring da. Tror du her er noe vi mister på veien? Altså noe av den, for en ting er den statistiske intuisjonen, er det noe ved den gammeldags mageintuisjonen som du tror går tapt når vi begynner å bli mer fokusert på dataene? Antakeligvis er det jo et ja-tak-megedeler i verden, men tror du at her er noen sånne negative bivirkninger av at vi blir mer og mer dataorienterte og datadrevne i måten vi ser på verden? Nei, altså jeg tror egentlig at dette gjemt over er det positive. Men det er klart at det er jo en liten fare for at hvis alt hvis man for eksempel kommer i den situasjonen at man også slutter med statistikkverktøy og slutter og på en måte bare ber KI om å finne ut noe, bare skrive sånne prompts til KI for å finne ut av statistiske ting, og så ser man det som kommer ut i andre enden, så er det klart at da er man så bokstavlig fra prosessen at det er en stor fare for at man ikke klarer å gå prosessen etter i sømme. Og det er klart at KI gjør jo feil, for å si det sånn. Og det å finne feil, jo lenger unna du er på en måte prosessen, jo vanskeligere er det å finne feil. Sånn at denne kritiske sansen, Jeg er litt redd for at man kan bli borte hvis man overlater for mye til KI og for mye til statistikkprogrammet. Men samtidig er jeg ikke tilhenger av at vi må på død og liv kunne regne kikadrett for hånd for å kunne gjøre en kryssstabel. Vi trenger ikke så langt, men man må ha en viss intuisjon om hva som trengs. Og i den graden at denne intusjonen blir borte med bruk av mer KI, så er det et potensielt faresignal. Det tenker jeg. Men for å da... Jeg må jo da også for å dra en... Du var inne på en fotballhistorie. Og jeg vet ikke om den muligens kan også koble seg til det vi har snakket om, men det sies jo at Salih og Brian Clough, som var manager på Nothing but Forest en gang i tiden... Han ble spurt av noen journalister om hvorfor de hadde tapt, og da sa han det at «We had a good team on paper. Unfortunately, the game was played on grass.» Kriste Trane, tusen takk for praten, og Takk! Derfra kan du også fortsette samtalen med oss i sosiale medier på Twitter, Facebook, LinkedIn, YouTube og andre steder.
Mentioned in the episode
Bærekraftseventyr med Jørgensen & Pedersen
Podcasten hvor intervjuet finner sted.
Christer Thrane
Professor i sosiologi som er gjest i podcasten.
Helt i mål: Lær statistisk tenkning med tall fra sportens verden
Thranes nye bok som intervjuet omhandler.
Expected Goals
Statistisk begrep som brukes for å analysere fotballkamper.
Arsene Wenger
Tidligere trener for Arsenal som var tidlig ute med å bruke Expected Goals.
Premier League
Engelsk fotballliga som Thrane bruker som eksempel.
Andrew Gelman
Forsker i USA som skriver en blogg om feilbruk av statistiske metoder.
Alex Edmonds
Professor i finans som har skrevet en bok om feilbruk av statistiske metoder.
May Contain Lies
Boka til Alex Edmonds om feilbruk av statistiske metoder.
Jon Elster
Forsker som skiller mellom "soft obskurantisme" og "hard obskurantisme" i forskning.
Explaining Social Behavior
Boka til Jon Elster som Thrane refererer til.
Cambridge University Press
Forlaget som ga ut boka til Jon Elster.
Nothing but Forest
Fotballklubb som ble ledet av Brian Clough.
Brian Clough
Tidligere manager for Nothing but Forest.
Moneyball
Bok og film som handler om bruken av statistikk i baseball.
Cochrane-studie
Type studie som samler inn data fra mange ulike studier for å se på en sammenheng.
Ronald Fisher
Statistiker som kritiserte studier som viste en sammenheng mellom røyking og lungekreft.
Thank You for Smoking
Amerikansk film som handler om en advokat som forsvarer tobaksindustrien.
KI
Kunstig intelligens, et begrep som Thrane diskuterer i forbindelse med statistikk.
R
Et open source programmeringsspråk som brukes i statistikk.
Krono
Nettside hvor Thrane leste om bruken av KI for å lage eksamensbesvarelser.
kikvadrat
Statistisk test som Thrane nevner.
multippel regresjon
Statistisk metode som Thrane diskuterer.
Stemmemjørnstadion
Fotballstadion som Thrane nevner.
Håkonsvern
Sjøforsvarets base hvor Thrane jobbet som lærer.
Høgskolen i Innlandet
Høgskolen hvor Thrane og noen av hans kollegaer jobber.
Regressjonsanalysen
En av bøkene til Thrane.
Ståne
En plattform som nevnes i forbindelse med utdelingsprosent.
Johannes Tegnesbø
Person som nevnes i forbindelse med utdelingsprosent.
CAR
Skole som nevnes i forbindelse med Thranes undervisningserfaring.
Helge Thor Bjørnsen
En kollega av Thrane som er nevnt tidligere i podcast-serien.
Participants
Host
Lars Jakob
Host
Sveinung
Guest
Christer Thrane