Myter Av Mord Og Multippel Regresjon

Original English version: http://crab.rutgers.edu/~goertzel/mythsofmurder.htm

Av  Ted Goertzel

Publisert i The Skeptical Inquirer, Volum 26, No 1, januar/februar 2002, s. 19-23.
Spanske oversettelsen som “El Modelo Econometrico Como Ciencia Basura” i Psicologia Politica, No 24 (Valencia, Spania).
Hvis du ønsker en lengre, mer teknisk versjon av denne artikkelen, i Word-format, klikk her
Tror du at hver gang en fange blir henrettet i USA, er åtte fremtidige drap avskrekket? Tror du at en 1% økning i antall innbyggere lisensiert til bære skjult våpen fører til en 3,3% reduksjon i statens mord? Tror du at 10-20% av nedgangen i kriminalitet på 1990-tallet ble forårsaket av en økning i aborter i 1970? Eller at den draps ville ha økt med 250% siden 1974 hvis USA ikke hadde bygget så mange nye fengsler?

Hvis du ble villedet av noen av disse studiene, kan det hende du har falt for en fordervelig form av junk science: bruk av matematiske modeller uten demonstrert prediktiv evne til å trekke politiske konklusjoner. Disse studiene er overfladisk imponerende. Skrevet av anerkjente samfunnsforskere fra prestisjetunge institusjoner, de ofte vises i fagfellevurderte vitenskapelige tidsskrifter. Fylt med komplekse statistiske beregninger, gir de presise tall “fakta” ​​som kan brukes som debattantene poeng i politiske argumenter. Men disse “fakta” ​​er Will O’ the wisps. “fakta” ​​før blekket er tørt på en studie, vises en annen med helt forskjellige tross sine vitenskapelige utseende, disse modellene ikke oppfyller de grunnleggende kriterium for en nyttig matematisk modell: evnen til å gjøre forutsigelser som er bedre enn tilfeldigheter.

Selv om økonomer er de ledende utøvere av denne uforståelige kunst, sosiologer, kriminologer og andre samfunnsvitere har versjoner av det også. Det er kjent ved forskjellige navn, blant annet “økono- modellering”, “strukturell ligning modellering”, og “banen analyse”. Alt dette er metoder for anvendelse av de korrelasjoner mellom variablene for å lage kausale slutninger. Problemet med dette, så alle som har hatt et kurs i statistikk vet, er at sammenhengen ikke er årsakssammenheng. Sammenhenger mellom to variabler er ofte “falsk”, fordi de er forårsaket av noen tredje variabel. Økonometriske modellbyggere prøve å løse dette problemet ved å inkludere alle relevante variabler i sine analyser, ved hjelp av en statistisk teknikk som kalles “multiple regresjon.” Hvis man hadde perfekte mål for alle kausale variabler, vil dette fungere. Men dataene er aldri bra nok. Gjentatte forsøk på å bruke flere regresjon for å oppnå definitive svar på offentlige politiske spørsmål har mislyktes.

Men mange samfunnsvitere er motvillige til å innrømme feil. De har viet år til læring og undervisning regresjon modellering, og de fortsetter å bruke regresjon til å gjøre årsaks argumenter som ikke er begrunnet av sine data. Jeg kaller disse argumentene mytene om multippel regresjon, og jeg ønsker å bruke fire studier av drapstallene som eksempler.

Myte One: More Guns, mindre kriminalitet.

John Lott, en økonom ved Yale University, brukes en økonometrisk modell for å hevde at “slik at borgere å bære skjult våpen avskrekker voldelige forbrytelser, uten å øke tilfeldige dødsfall.” Lott analyse involvert “skal utstede” lover som krever lokale myndigheter til å utstede et skjult våpen tillatelse til enhver lovlydig borger som gjelder for ett. Lott anslått at hver og en prosent økning i pistol eierskap i en befolkning fører til en 3,3% nedgang i drapsrater. Lott og hans medforfatter David Sennep postet den første versjonen av sin studie på Internett i 1997 og titusener av mennesker lastet det ned. Det var gjenstand for politiske fora, avisspalter, og ofte ganske sofistikert debatter på World Wide Web. I en bok med den fengende tittelen Flere Guns, mindre kriminalitet, Lott hånet hans kritikere.

Lott arbeid er et eksempel på statistisk one-upmanship. Han har mer data og en mer kompleks analyse enn noen andre å studere emnet. Han krever at alle som ønsker å utfordre sine argumenter bli nedsenket i en svært kompleks statistisk debatt, basert på beregninger så vanskelige at de ikke kan gjøres med vanlige stasjonære datamaskiner. Han utfordrer alle som er uenig med ham for å laste ned hans datasett og gjøre sine beregninger, men de fleste samfunnsvitere tror ikke det verdt sin tid å replikere studier med metoder som gjentatte ganger har mislyktes. De fleste våpenkontroll forskerne bare børstet av Lott og sennep påstander og gikk videre med sitt arbeid. To svært respekterte strafferettslige forskere, Frank Zimring og Gordon Hawkins (1997) skrev en artikkel som forklarer at:

akkurat som herrene. Lott og sennep kan, med en modell av de faktorer som bestemmer drap, produsere statistiske rest tyder på at ‘skal utstede’ lover redusere drap, forventer vi at en bestemt økonometrikeren kan produsere en behandling av de samme historiske perioder med ulike modeller og motsatte virkninger. Økono- modellering er et tveegget sverd i sin evne til å lette statistiske resultater for å varme hjertene til troende av en hvilken som helst stripe.Zimring og Hawkins hadde rett. Innen et år, to bestemte økonometrikere, Dan Black and Daniel Nagin (1998) publisert en studie som viser at hvis de endret den statistiske modellen litt, eller brukt den til ulike segmenter av data, Lott og sennep funn forsvant. Svart og Nagin funnet ut at når Florida ble fjernet fra prøven var der “ingen påviselig effekt av riktig å bære lover om frekvensen av drap og voldtekt.” De konkluderte med at “slutning basert på Lott og sennep modellen er upassende, og deres resultater kan ikke brukes på en ansvarlig måte å formulere offentlig politikk.”

John Lott imidlertid omstridt deres analyse og fortsatte å fremme sin egen. Lott hadde samlet data for hvert av USAs fylker for hvert år fra 1977 til 1992. Problemet med dette er at USAs fylker varierer enormt i størrelse og sosiale egenskaper. Et par store, som inneholder store byer, står for en svært stor andel av drapene i USA. Når det skjer, ingen av disse svært store fylker har “skal utstede” våpenkontroll lover. Dette betyr at Lott massive datasettet var rett og slett uegnet for sin oppgave. Han hadde ingen variasjon i sin nøkkel årsaksvariabel – “skal utstede” lover – på de stedene der de fleste drapene skjedde.

Han nevnte ikke denne begrensningen i sin bok eller artikler. Da jeg oppdaget mangelen på “skal utstede” lover i de store byene i min egen undersøkelse av hans data, spurte jeg ham om det. Han trakk på skuldrene og sa at han hadde “kontrollert” for befolkningsstørrelsen i sin analyse. Men å innføre en statistisk kontroll i matematisk analyse gjorde ikke opp for det faktum at han bare hadde ingen data for de store byene der drap problemet var mest akutt.

Det tok meg litt tid å finne dette problemet i sine data, siden jeg ikke var kjent med våpenkontroll problemet. Men Zimring og Hawkins nullet på det umiddelbart fordi de visste at “skal utstede” lover ble innstiftet i stater hvor National Rifle Association var kraftig, hovedsakelig i sør, vest og i distriktene. Disse var stater som allerede hadde noen restriksjoner på våpen. De observerte at dette forarbeidene frustrerer “vår evne til å sammenligne trender i ‘skal utgå’ stater med utviklingen i andre stater. Fordi de statene som endret lovgivning er forskjellige i sted og grunnloven fra stater som ikke gjorde det, vil sammenligninger mellom lovgivende kategorier alltid risikere forvirrende demografiske og regionale påvirkninger med atferds effekten av ulike juridiske regimer “Zimring og Hawkins videre observert at.:

Lott og sennep er selvfølgelig klar over dette problemet. Deres løsning, en standard økonometrisk teknikk, er å bygge en statistisk modell som vil kontrollere for alle forskjellene mellom Idaho og New York City som påvirker drap og kriminalitet, annet enn de “skal utstede” lover. Hvis man kan “angi” de store påvirkninger på drap, voldtekt, innbrudd og biltyveri i vår modell, så kan vi eliminere påvirkning av disse faktorene på ulike trender. Lott og sennep bygge modeller som anslår effekten av demografiske data, økonomiske data, og kriminell straff på ulike lovbrudd. Disse modellene er den ultimate statistisk husmannskost i at de er skapt for disse dataene satt av disse forfatterne, og kun testet på dataene som vil bli brukt i evalueringen av de rette til å bære konsekvensene.Lott og sennep var sammenligne trender i Idaho og West Virginia og Mississippi med utviklingen i Washington, DC og New York City. Hva som faktisk skjedde var at det var en eksplosjon av crack relaterte drap i store østlige byer på 1980-tallet og tidlig på 1990-tallet. Lott hele argumentet kom ned til en påstand om at den i stor grad landlige og vestlige “skal utstede” statene ble spart sprekk relaterte drap epidemi på grunn av deres “skal utstede” lover. Dette ville aldri ha blitt tatt på alvor hvis det ikke hadde vært skjult av en labyrint av ligninger.Myte to: Fengsle Flere Mennesker Kutter Kriminalitet

Den Lott og sennep tilfellet var eksepsjonell bare i mengden av offentlige oppmerksomheten den fikk. Det er ganske vanlig, selv typisk for rivaliserende studier for å bli publisert ved hjelp av økonometriske metoder for å nå motsatte konklusjoner om det samme problemet. Ofte er det ikke noe påviselig galt med noen av analysene. De bare bruker litt forskjellige datasett eller ulike teknikker for å oppnå forskjellige resultater. Det virker som om regresjon modellbyggere kan oppnå noe resultat de ønsker uten å bryte reglene for regresjonsanalyse på noen måte. I en usedvanlig åpenhjertig uttalelse av frustrasjon med tingenes tilstand, to høyt respekterte kriminologer, Thomas Marvell og Carlisle Moody (1997: 221), rapportert på mottak av en undersøkelse de gjorde på effekten av fengsel på drapsrater. De rapporterte at de:

vidt distribuert [sine] funn, sammen med dataene som brukes, til kolleger som spesialiserer seg på kvantitativ analyse. Den hyppigste svaret er at de nekter å tro resultatene uansett hvor god den statistiske analysen. Bak den påstanden er forestillingen, ofte diskutert uformelt, men sjelden publisert, at samfunnsvitere kan få noe resultat ønsket ved å manipulere de prosedyrene som brukes. Faktisk er det store utvalget av estimater om virkningen av fengselspopulasjoner tatt så godt bevis på malleability forskning. Implikasjonen, selv blant mange som jevnlig publiserer kvantitative studier, er at uansett hvor grundig analyse, resultatene er ikke troverdig med mindre de er i samsvar med tidligere forventninger. En forskningsdisiplin kan ikke lykkes i et slikt rammeverk.Til deres store fortrinn, Marvell og Moody ærlig erkjent problemene med multippel regresjon, og gjort noen forslag til forbedringer. Dessverre blir noen økonometrikere så oppslukt i sine modeller at de mister oversikten over hvor vilkårlig de er. De kommer til å tro at deres modeller er mer ekte, mer gyldig enn den rotete, trassig, “ukontrollert” virkeligheten de hevder å forklare.Myte Tre: Utføre Folk Kutter Kriminalitet

I 1975 American Economic Review publisert en artikkel av en ledende økonom, Isaac Ehrlich ved University of Michigan, som anslo at hver utføring avskrekket åtte drap. Før Ehrlich, best kjent spesialist på effektiviteten av dødsstraff var Thorsten Sellen, som hadde brukt en mye enklere metode for analyse. Sellen utarbeidet grafer som sammenligner utviklingen i ulike stater. Han fant liten eller ingen forskjell mellom stater med eller uten dødsstraff, så han konkluderte med at dødsstraffen gjort noen forskjell. Ehrlich, i en handling av en statistisk-upmanship, hevdet at hans analyse var mer gyldig fordi den styres for alle de faktorer som påvirker drapsrater.

Allerede før den ble publisert, ble Ehrlich arbeid sitert av Advokat General av USA i en amicus curiae kort arkivert med USAs høyesterett i forsvaret av dødsstraff. Heldigvis bestemte retten til ikke å stole på Ehrlich bevis fordi det ikke hadde blitt bekreftet av andre forskere. Dette var klokt, fordi i løpet av et år eller to andre forskere publiserte like sofistikert økonometriske analyser som viser at dødsstraff hadde ingen avskrekkende effekt.

Striden Ehrlich arbeid var så viktig at National Research Council kalt et blått bånd panel av eksperter til å vurdere det. Etter en svært grundig gjennomgang, bestemte panelet at problemet ikke var bare med Ehrlich modell, men med ideen om å bruke økonometriske metoder for å løse ta over strafferettslige politikk. De (Manski, 1978: 422) konkluderte med at:

fordi dataene vil trolig være tilgjengelig for en slik analyse har begrensninger og fordi kriminell atferd kan være så komplisert, bør fremveksten av en endelig atferdsstudie liggende å hvile all uenighet om atferdsmessige effekter av avskrekking politikk ikke forventes.De fleste eksperter mener nå at Sellen var riktig, har det dødsstraff ingen påviselig effekt på drapstallene. Men Ehrlich har ikke blitt overbevist. Han er nå en ensom sann troende i gyldigheten av sin modell. I et nylig intervju (Bonner og Fessendren, 2000) han insisterte “hvis varianter som arbeidsledighet, inntektsulikhet, sannsynligheten for pågripelse og vilje til å bruke dødsstraff er regnskapsført, dødsstraff viser en betydelig avskrekkende effekt.”

Myte fire: Legalisert abort forårsaket Crime Drop på 1990-tallet.I 1999, John Donohue og Steven Levitt utgitt en studie med en roman forklaring på den kraftige nedgangen i drapstallene i 1990-årene. De hevdet at legalisering av abort ved USAs høyesterett i 1973 forårsaket en nedgang i fødselen av uønskede barn, et uforholdsmessig stort antall av dem ville ha vokst opp til å bli kriminelle. Problemet med dette argumentet er at legalisering av abort var en engangs historisk hendelse og engangshendelser ikke gir nok data for en gyldig regresjonsanalyse. Det er sant at abort ble legalisert tidligere i noen stater enn andre, og Donohue og Levitt gjøre bruk av dette faktum. Men alle disse statene skulle gjennom de samme historiske prosesser, og ble mange andre ting som skjer i den samme historiske perioden som skjer drapstallene. En gyldig regresjonsanalyse må fange opp alle disse tingene, og teste dem under et bredt spekter av variasjon. De eksisterende data tillater ikke dette, så resultatene av en regresjonsanalyse vil variere avhengig av hvilke data blir valgt for analyse.

I dette tilfellet, Donohue og Levitt valgte å fokusere på endring over en tolv år tidsrom, ignorerer svingninger i disse årene. Ved å gjøre dette, som James Fox (2000: 303) påpekte, “de savnet mest av skiftene i kriminalitet i løpet av denne perioden – den oppadgående trenden i løpet av slutten av 1980-tallet knekke æra og den nedadgående korreksjon i post-sprekk år. Dette er noe som studerer effekten av månefaser på havets tidevann, men bare registrere data for perioder med lavvann.”

Da jeg skrev denne artikkelen, jeg tatt med en setning som sier “snart en annen regresjon analytiker vil trolig Analyser på nytt de samme dataene og nå forskjellige konklusjoner.” Et par dager senere, min kone ga meg en avisartikkel om nettopp en slik studie. Forfatteren var ingen ringere enn John Lott fra Yale, sammen med John Whitley ved University of Adelaide. De knaste de samme tallene og konkluderte med at “legalisering abort økt drapstallene med rundt 0,5 til 7 prosent” (Lott og Whitely, 2001).

Hvorfor slike markant forskjellige resultater? Hvert sett av forfatterne rett og slett valgt en annen måte å modellere en utilstrekkelig mengde data. Econometrics kan ikke lage et gyldig generell lov ut av det historiske faktum at abort ble legalisert i 1970 og kriminalitet gikk ned på 1990-tallet. Vi trenger minst et par dusin slike historiske erfaringer for en gyldig statistisk test.

Konklusjoner.

Syretesten i statistisk modell er forutsigelse. Tippe trenger ikke å være perfekt. Hvis en modell kan forutsi betydelig bedre enn tilfeldig gjette, er det nyttig. For eksempel, hvis en modell kunne forutsi aksjekurser enda litt bedre enn tilfeldig gjette, ville det gjøre sine eiere svært rike. Så mye arbeid har gått inn i å teste og evaluere modeller av aksjekurser. Dessverre, forskere som bruker økonometriske teknikker for å evaluere sosialpolitikk svært sjelden utsetter sine modeller til prediktive tester. Deres unnskyldning er at det tar for lang tid for resultatene å bli kjent. Du får ikke nye data om fattigdom, abort eller drap hvert femte minutt som du gjør med aksjekurser. Men forskerne kan gjøre prediktiv testing på andre måter. De kan utvikle en modell ved hjelp av data fra en jurisdiksjon eller tidsperiode, deretter bruke den til å forutsi data fra andre tider eller steder. Men de fleste forskere rett og slett ikke gjør dette, eller hvis de gjør modellene mislykkes og resultatene er aldri offentliggjort.

Tidsskriftene som publiserer økonometriske studier av offentlige politiske spørsmål ofte ikke krever prediktiv testing, noe som viser at redaktører og anmeldere har lave forventninger til sine felt. Så forskere ta data for en fast periode og holde finjustering og justere sin modell det før de kan “forklare” trender som allerede har skjedd. Det er alltid flere måter å gjøre dette på, og med moderne datamaskiner er det ikke veldig vanskelig å fortsette å prøve til du finner noe som passer. På dette punktet, forskeren stopper, skriver opp funnene, og sender papiret av for publisering. Senere, kan en annen forsker justere modellen for å oppnå et annet resultat. Dette fyller sidene i vitenskapelige tidsskrifter, og alle later ikke til å legge merke til at lite eller ingen fremdrift i arbeidet. Men vi er ikke nærmere til å ha en gyldig økonometrisk modell av drapstallene i dag enn vi var da Isaac Ehrlich publiserte den første modellen i 1975.

Det vitenskapelige samfunnet ikke har gode rutiner for å erkjenne svikt i en utbredt forskningsmetode. Metoder som er forankret i graduate-programmer ved ledende universiteter og publisert i prestisjetunge tidsskrifter har en tendens til å bli foreviget. Mange lekfolk anta at dersom en studie har blitt publisert i en fagfellevurdert tidsskrift, er det gyldig. De sakene vi har undersøkt viser at dette er ikke alltid tilfelle. Peer review forsikrer at etablert praksis er fulgt, men det er til liten hjelp når disse praksis selv er defekt.

I 1991 David Freedman, en fremstående sosiolog ved University of California i Berkeley og forfatter av lærebøker i kvantitative forskningsmetoder, ristet grunnlaget for regresjon modellering da han ærlig uttalte “Jeg tror ikke at regresjon kan bære mye av byrden i en kausal argument. Heller ikke regresjonsligningene, av seg selv, gi mye hjelp i å kontrollere for konfunderende variabler”(Freedman, 1991: 292). Freedman artikkel provosert en rekke sterke reaksjoner. Richard Berk (1991: 315) observerte at Freedman argument “vil være svært vanskelig for de fleste kvantitative sosiologer å akseptere. Det går til kjernen av deres empiriske bedriften og på den måten setter hele yrkeskarriere i fare.”

 

Konfrontert med kritikere som ønsker noen bevis for at de kan forutsi trender, regresjon modellbyggere ofte falle tilbake på statistisk one-upmanship. De gjør argumentene så komplisert at bare andre høyt utdannede regresjon analytikere kan forstå, enn si tilbakevise, dem. Ofte denne teknikken fungerer. Potensielle kritikere bare gi opp i frustrasjon. Philadelphia Inquirer David Boldt (1999), etter å ha hørt John Lott snakke om skjulte våpen og drapsrater, og sjekke med andre eksperter, beklaget at “prøver å sortere ut de faglige argumentene er nesten en tosk ærend. Du kan drukne i konflikter over t-statistikk, dummyvariabler og ‘Poisson’ vs. ‘minste kvadraters’ data analysemetoder.”

Boldt var riktig å mistenke at han ble lokket i en tosk misjon. Det er faktisk ingen viktige funn i sosiologi eller kriminologi som ikke kan formidles til journalister og politikere som mangler utdannet grader i økonometri. Det er på tide å innrømme at keiseren har ingen klær. Når presentert med en økonometrisk modell, bør forbrukerne insisterer på bevis for at det kan forutsi trender i data enn dataene som brukes til å lage denModeller som ikke klarer denne testen er verdiløs forskning, uansett hvor kompleks analyse.