Original English version: http://crab.rutgers.edu/~goertzel/mythsofmurder.htm
Av Ted Goertzel
Spanske oversettelsen som “El Modelo Econometrico Como Ciencia Basura” i Psicologia Politica, No 24 (Valencia, Spania).
Hvis du ønsker en lengre, mer teknisk versjon av denne artikkelen, i Word-format, klikk her.
Hvis du ble villedet av noen av disse studiene, kan det hende du har falt for en fordervelig form av junk science: bruk av matematiske modeller uten demonstrert prediktiv evne til å trekke politiske konklusjoner. Disse studiene er overfladisk imponerende. Skrevet av anerkjente samfunnsforskere fra prestisjetunge institusjoner, de ofte vises i fagfellevurderte vitenskapelige tidsskrifter. Fylt med komplekse statistiske beregninger, gir de presise tall “fakta” som kan brukes som debattantene poeng i politiske argumenter. Men disse “fakta” er Will O’ the wisps. “fakta” før blekket er tørt på en studie, vises en annen med helt forskjellige tross sine vitenskapelige utseende, disse modellene ikke oppfyller de grunnleggende kriterium for en nyttig matematisk modell: evnen til å gjøre forutsigelser som er bedre enn tilfeldigheter.
Selv om økonomer er de ledende utøvere av denne uforståelige kunst, sosiologer, kriminologer og andre samfunnsvitere har versjoner av det også. Det er kjent ved forskjellige navn, blant annet “økono- modellering”, “strukturell ligning modellering”, og “banen analyse”. Alt dette er metoder for anvendelse av de korrelasjoner mellom variablene for å lage kausale slutninger. Problemet med dette, så alle som har hatt et kurs i statistikk vet, er at sammenhengen ikke er årsakssammenheng. Sammenhenger mellom to variabler er ofte “falsk”, fordi de er forårsaket av noen tredje variabel. Økonometriske modellbyggere prøve å løse dette problemet ved å inkludere alle relevante variabler i sine analyser, ved hjelp av en statistisk teknikk som kalles “multiple regresjon.” Hvis man hadde perfekte mål for alle kausale variabler, vil dette fungere. Men dataene er aldri bra nok. Gjentatte forsøk på å bruke flere regresjon for å oppnå definitive svar på offentlige politiske spørsmål har mislyktes.
Men mange samfunnsvitere er motvillige til å innrømme feil. De har viet år til læring og undervisning regresjon modellering, og de fortsetter å bruke regresjon til å gjøre årsaks argumenter som ikke er begrunnet av sine data. Jeg kaller disse argumentene mytene om multippel regresjon, og jeg ønsker å bruke fire studier av drapstallene som eksempler.
Myte One: More Guns, mindre kriminalitet.
John Lott, en økonom ved Yale University, brukes en økonometrisk modell for å hevde at “slik at borgere å bære skjult våpen avskrekker voldelige forbrytelser, uten å øke tilfeldige dødsfall.” Lott analyse involvert “skal utstede” lover som krever lokale myndigheter til å utstede et skjult våpen tillatelse til enhver lovlydig borger som gjelder for ett. Lott anslått at hver og en prosent økning i pistol eierskap i en befolkning fører til en 3,3% nedgang i drapsrater. Lott og hans medforfatter David Sennep postet den første versjonen av sin studie på Internett i 1997 og titusener av mennesker lastet det ned. Det var gjenstand for politiske fora, avisspalter, og ofte ganske sofistikert debatter på World Wide Web. I en bok med den fengende tittelen Flere Guns, mindre kriminalitet, Lott hånet hans kritikere.
Lott arbeid er et eksempel på statistisk one-upmanship. Han har mer data og en mer kompleks analyse enn noen andre å studere emnet. Han krever at alle som ønsker å utfordre sine argumenter bli nedsenket i en svært kompleks statistisk debatt, basert på beregninger så vanskelige at de ikke kan gjøres med vanlige stasjonære datamaskiner. Han utfordrer alle som er uenig med ham for å laste ned hans datasett og gjøre sine beregninger, men de fleste samfunnsvitere tror ikke det verdt sin tid å replikere studier med metoder som gjentatte ganger har mislyktes. De fleste våpenkontroll forskerne bare børstet av Lott og sennep påstander og gikk videre med sitt arbeid. To svært respekterte strafferettslige forskere, Frank Zimring og Gordon Hawkins (1997) skrev en artikkel som forklarer at:
John Lott imidlertid omstridt deres analyse og fortsatte å fremme sin egen. Lott hadde samlet data for hvert av USAs fylker for hvert år fra 1977 til 1992. Problemet med dette er at USAs fylker varierer enormt i størrelse og sosiale egenskaper. Et par store, som inneholder store byer, står for en svært stor andel av drapene i USA. Når det skjer, ingen av disse svært store fylker har “skal utstede” våpenkontroll lover. Dette betyr at Lott massive datasettet var rett og slett uegnet for sin oppgave. Han hadde ingen variasjon i sin nøkkel årsaksvariabel – “skal utstede” lover – på de stedene der de fleste drapene skjedde.
Han nevnte ikke denne begrensningen i sin bok eller artikler. Da jeg oppdaget mangelen på “skal utstede” lover i de store byene i min egen undersøkelse av hans data, spurte jeg ham om det. Han trakk på skuldrene og sa at han hadde “kontrollert” for befolkningsstørrelsen i sin analyse. Men å innføre en statistisk kontroll i matematisk analyse gjorde ikke opp for det faktum at han bare hadde ingen data for de store byene der drap problemet var mest akutt.
Det tok meg litt tid å finne dette problemet i sine data, siden jeg ikke var kjent med våpenkontroll problemet. Men Zimring og Hawkins nullet på det umiddelbart fordi de visste at “skal utstede” lover ble innstiftet i stater hvor National Rifle Association var kraftig, hovedsakelig i sør, vest og i distriktene. Disse var stater som allerede hadde noen restriksjoner på våpen. De observerte at dette forarbeidene frustrerer “vår evne til å sammenligne trender i ‘skal utgå’ stater med utviklingen i andre stater. Fordi de statene som endret lovgivning er forskjellige i sted og grunnloven fra stater som ikke gjorde det, vil sammenligninger mellom lovgivende kategorier alltid risikere forvirrende demografiske og regionale påvirkninger med atferds effekten av ulike juridiske regimer “Zimring og Hawkins videre observert at.:
Den Lott og sennep tilfellet var eksepsjonell bare i mengden av offentlige oppmerksomheten den fikk. Det er ganske vanlig, selv typisk for rivaliserende studier for å bli publisert ved hjelp av økonometriske metoder for å nå motsatte konklusjoner om det samme problemet. Ofte er det ikke noe påviselig galt med noen av analysene. De bare bruker litt forskjellige datasett eller ulike teknikker for å oppnå forskjellige resultater. Det virker som om regresjon modellbyggere kan oppnå noe resultat de ønsker uten å bryte reglene for regresjonsanalyse på noen måte. I en usedvanlig åpenhjertig uttalelse av frustrasjon med tingenes tilstand, to høyt respekterte kriminologer, Thomas Marvell og Carlisle Moody (1997: 221), rapportert på mottak av en undersøkelse de gjorde på effekten av fengsel på drapsrater. De rapporterte at de:
I 1975 American Economic Review publisert en artikkel av en ledende økonom, Isaac Ehrlich ved University of Michigan, som anslo at hver utføring avskrekket åtte drap. Før Ehrlich, best kjent spesialist på effektiviteten av dødsstraff var Thorsten Sellen, som hadde brukt en mye enklere metode for analyse. Sellen utarbeidet grafer som sammenligner utviklingen i ulike stater. Han fant liten eller ingen forskjell mellom stater med eller uten dødsstraff, så han konkluderte med at dødsstraffen gjort noen forskjell. Ehrlich, i en handling av en statistisk-upmanship, hevdet at hans analyse var mer gyldig fordi den styres for alle de faktorer som påvirker drapsrater.
Allerede før den ble publisert, ble Ehrlich arbeid sitert av Advokat General av USA i en amicus curiae kort arkivert med USAs høyesterett i forsvaret av dødsstraff. Heldigvis bestemte retten til ikke å stole på Ehrlich bevis fordi det ikke hadde blitt bekreftet av andre forskere. Dette var klokt, fordi i løpet av et år eller to andre forskere publiserte like sofistikert økonometriske analyser som viser at dødsstraff hadde ingen avskrekkende effekt.
Striden Ehrlich arbeid var så viktig at National Research Council kalt et blått bånd panel av eksperter til å vurdere det. Etter en svært grundig gjennomgang, bestemte panelet at problemet ikke var bare med Ehrlich modell, men med ideen om å bruke økonometriske metoder for å løse ta over strafferettslige politikk. De (Manski, 1978: 422) konkluderte med at:
I dette tilfellet, Donohue og Levitt valgte å fokusere på endring over en tolv år tidsrom, ignorerer svingninger i disse årene. Ved å gjøre dette, som James Fox (2000: 303) påpekte, “de savnet mest av skiftene i kriminalitet i løpet av denne perioden – den oppadgående trenden i løpet av slutten av 1980-tallet knekke æra og den nedadgående korreksjon i post-sprekk år. Dette er noe som studerer effekten av månefaser på havets tidevann, men bare registrere data for perioder med lavvann.”
Da jeg skrev denne artikkelen, jeg tatt med en setning som sier “snart en annen regresjon analytiker vil trolig Analyser på nytt de samme dataene og nå forskjellige konklusjoner.” Et par dager senere, min kone ga meg en avisartikkel om nettopp en slik studie. Forfatteren var ingen ringere enn John Lott fra Yale, sammen med John Whitley ved University of Adelaide. De knaste de samme tallene og konkluderte med at “legalisering abort økt drapstallene med rundt 0,5 til 7 prosent” (Lott og Whitely, 2001).
Hvorfor slike markant forskjellige resultater? Hvert sett av forfatterne rett og slett valgt en annen måte å modellere en utilstrekkelig mengde data. Econometrics kan ikke lage et gyldig generell lov ut av det historiske faktum at abort ble legalisert i 1970 og kriminalitet gikk ned på 1990-tallet. Vi trenger minst et par dusin slike historiske erfaringer for en gyldig statistisk test.
Konklusjoner.
Syretesten i statistisk modell er forutsigelse. Tippe trenger ikke å være perfekt. Hvis en modell kan forutsi betydelig bedre enn tilfeldig gjette, er det nyttig. For eksempel, hvis en modell kunne forutsi aksjekurser enda litt bedre enn tilfeldig gjette, ville det gjøre sine eiere svært rike. Så mye arbeid har gått inn i å teste og evaluere modeller av aksjekurser. Dessverre, forskere som bruker økonometriske teknikker for å evaluere sosialpolitikk svært sjelden utsetter sine modeller til prediktive tester. Deres unnskyldning er at det tar for lang tid for resultatene å bli kjent. Du får ikke nye data om fattigdom, abort eller drap hvert femte minutt som du gjør med aksjekurser. Men forskerne kan gjøre prediktiv testing på andre måter. De kan utvikle en modell ved hjelp av data fra en jurisdiksjon eller tidsperiode, deretter bruke den til å forutsi data fra andre tider eller steder. Men de fleste forskere rett og slett ikke gjør dette, eller hvis de gjør modellene mislykkes og resultatene er aldri offentliggjort.
Tidsskriftene som publiserer økonometriske studier av offentlige politiske spørsmål ofte ikke krever prediktiv testing, noe som viser at redaktører og anmeldere har lave forventninger til sine felt. Så forskere ta data for en fast periode og holde finjustering og justere sin modell det før de kan “forklare” trender som allerede har skjedd. Det er alltid flere måter å gjøre dette på, og med moderne datamaskiner er det ikke veldig vanskelig å fortsette å prøve til du finner noe som passer. På dette punktet, forskeren stopper, skriver opp funnene, og sender papiret av for publisering. Senere, kan en annen forsker justere modellen for å oppnå et annet resultat. Dette fyller sidene i vitenskapelige tidsskrifter, og alle later ikke til å legge merke til at lite eller ingen fremdrift i arbeidet. Men vi er ikke nærmere til å ha en gyldig økonometrisk modell av drapstallene i dag enn vi var da Isaac Ehrlich publiserte den første modellen i 1975.
Det vitenskapelige samfunnet ikke har gode rutiner for å erkjenne svikt i en utbredt forskningsmetode. Metoder som er forankret i graduate-programmer ved ledende universiteter og publisert i prestisjetunge tidsskrifter har en tendens til å bli foreviget. Mange lekfolk anta at dersom en studie har blitt publisert i en fagfellevurdert tidsskrift, er det gyldig. De sakene vi har undersøkt viser at dette er ikke alltid tilfelle. Peer review forsikrer at etablert praksis er fulgt, men det er til liten hjelp når disse praksis selv er defekt.
I 1991 David Freedman, en fremstående sosiolog ved University of California i Berkeley og forfatter av lærebøker i kvantitative forskningsmetoder, ristet grunnlaget for regresjon modellering da han ærlig uttalte “Jeg tror ikke at regresjon kan bære mye av byrden i en kausal argument. Heller ikke regresjonsligningene, av seg selv, gi mye hjelp i å kontrollere for konfunderende variabler”(Freedman, 1991: 292). Freedman artikkel provosert en rekke sterke reaksjoner. Richard Berk (1991: 315) observerte at Freedman argument “vil være svært vanskelig for de fleste kvantitative sosiologer å akseptere. Det går til kjernen av deres empiriske bedriften og på den måten setter hele yrkeskarriere i fare.”
Konfrontert med kritikere som ønsker noen bevis for at de kan forutsi trender, regresjon modellbyggere ofte falle tilbake på statistisk one-upmanship. De gjør argumentene så komplisert at bare andre høyt utdannede regresjon analytikere kan forstå, enn si tilbakevise, dem. Ofte denne teknikken fungerer. Potensielle kritikere bare gi opp i frustrasjon. Philadelphia Inquirer David Boldt (1999), etter å ha hørt John Lott snakke om skjulte våpen og drapsrater, og sjekke med andre eksperter, beklaget at “prøver å sortere ut de faglige argumentene er nesten en tosk ærend. Du kan drukne i konflikter over t-statistikk, dummyvariabler og ‘Poisson’ vs. ‘minste kvadraters’ data analysemetoder.”
Boldt var riktig å mistenke at han ble lokket i en tosk misjon. Det er faktisk ingen viktige funn i sosiologi eller kriminologi som ikke kan formidles til journalister og politikere som mangler utdannet grader i økonometri. Det er på tide å innrømme at keiseren har ingen klær. Når presentert med en økonometrisk modell, bør forbrukerne insisterer på bevis for at det kan forutsi trender i data enn dataene som brukes til å lage den. Modeller som ikke klarer denne testen er verdiløs forskning, uansett hvor kompleks analyse.