• Huvud
  • Metoder
  • Utvärdera ett nytt förslag för att upptäcka förfalskning av data i undersökningar

Utvärdera ett nytt förslag för att upptäcka förfalskning av data i undersökningar

Uppdaterad 25 februari 2016


En version av denna uppsats publicerades i IAOS Statistical Journal.

Av Katie Simmons, Andrew Mercer, Steve Schwarzer och Courtney Kennedy

Bekymmer för dataförfalskning är lika gammalt som allmän opinionsundersökning. Omfattningen av dataförfalskning är dock svår att kvantifiera och är inte väldokumenterad. Som ett resultat är förfalskningens inverkan på statistiska uppskattningar i princip okänd. Ändå finns det ett etablerat tillvägagångssätt för att ta itu med problemet med dataförfalskning som inkluderar förebyggande, till exempel genom att utbilda intervjuare och tillhandahålla noggrann övervakning och upptäckt, såsom genom noggrann utvärdering av mönster i de tekniska data, även kallad paradata, och de materiella uppgifterna.

I en färsk tidskrift föreslår Kuriakose och Robbins (2015) ett nytt tillvägagångssätt för att upptäcka förfalskning. Måttet är en förlängning av den traditionella metoden för att leta efter dubbletter i datamängder. Det som är nytt med deras tillvägagångssätt är påståendet att närvaron av respondenter som matchar en annan respondent på mer än 85% av frågorna, vilket vi kallar en hög matchning, antyder sannolik förfalskning. De tillämpar denna tröskel på en rad offentligt tillgängliga internationella undersökningsdatauppsättningar och drar slutsatsen att en av fem internationella undersökningsdatauppsättningar sannolikt innehåller förfalskade data.


Påståendet att det finns omfattande förfalskning i internationella undersökningar är helt klart oroande. En omfattande utredning utförd av Pew Research Center och sammanfattad i denna rapport visar dock att påståendet inte stöds väl. Resultaten visar att naturliga, godartade undersökningsfunktioner kan förklara höga matchningshastigheter. Specifikt är tröskeln som Kuriakose och Robbins föreslår extremt känslig för antalet frågor, antalet svarsalternativ, antalet respondenter och homogenitet inom befolkningen. På grund av denna känslighet för flera parametrar är det under verkliga förhållanden möjligt för respondenterna att matcha alla procentuella frågor även när undersökningsdata är giltiga och okorrumperade. Med andra ord visar vår analys att den föreslagna tröskeln är benägen att generera falska positiva effekter - vilket föreslår förfalskning när det faktiskt inte finns något. Det kanske mest övertygande beviset som tvivlar på påståendet om omfattande förfalskning är på det sättet som tillvägagångssättet innebär vissa högkvalitativa amerikanska undersökningar. Tröskeln genererar falska positiva data i data utan misstänkt förfalskning men som har liknande egenskaper som de internationella undersökningar som ifrågasätts.



Denna uppsats fortsätter enligt följande. Först granskar vi kort problemet med dataförfalskning i undersökningar och hur det vanligtvis behandlas. För det andra sammanfattar vi Kuriakose och Robbins argument för deras föreslagna tröskel för att identifiera förfalskade uppgifter och diskutera vår oro över deras bevis. För det tredje beskriver vi de forskningssteg som vi följde för att utvärdera den föreslagna tröskeln och granskar sedan i detalj resultaten av vår analys. Slutligen avslutar vi med en diskussion av resultaten och andra sätt fältet arbetar för att förbättra kvalitetskontrollmetoderna.


I. Förfalskning av data i undersökningar

Alla undersökningsdata, oberoende av sättet för datainsamling, är känsliga för undersökningsfel. Groves et al. (2009) redogör för de olika felkällor som kan påverka undersökningar inom ramverket för totalundersökningsfel. En särskilt när det gäller felkällan är förfalskning av data.

I en rapport från 2003 från American Association for Public Opinion Research (AAPOR) definieras problemet med förfalskning i undersökningar som en avsiktlig avvikelse från riktlinjer eller instruktioner (s. 1). Forskare måste förlita sig på fälthuset, intervjuarna och till och med respondenterna för att följa riktlinjerna för enkätdesign och frågeformulär. Detta skapar ett klassiskt huvudagentproblem. Fälthus, intervjuare och respondenter (agenterna) har bättre information om fältarbetet och intervjussituationen än forskarna (rektorerna) (Kosyakova et al., 2015, s. 418). För undersökningar baserade på personlig intervjuning har forskningen om förfalskning traditionellt fokuserat på olika former av intervjuarbaserad förfalskning (som att göra hela intervjuer eller 'stävja', hoppa över frågor, modifiera frågor eller svar), medan för undersökningar som inte gör det involverar intervjuare har fokus varit på respondenternas felaktiga beteende (som rakt foder eller snabbare genom frågeformuläret).


I en tidig studie om förfalskning av data hävdade Crespi (1945) att avvikelsen från intervjuprotokoll är mindre ett moraliskt problem och mer ett moraliskt problem (s. 431). Crespi, som främst fokuserade på intervjuare, redogjorde för de olika faktorer som kan avskräcka intervjuare från att troget utför sina uppgifter, inklusive frågeformulär (långa, komplexa eller känsliga frågeformulär), administrativa aspekter (otillräcklig ersättning eller otillräcklig utbildning av intervjuare) och externa faktorer ( dåligt väder, osäkra stadsdelar eller svåråtkomliga områden).

Omfattningen av problemet med dataförfalskning är inte klart fastställt, även om vi vet att problemet existerar (Singer, 2008; Loosveldt, 2008). Studier har huvudsakligen fokuserat på intervjubaserade lägen, särskilt personliga undersökningar. Forskning visar att oerfarna intervjuare är mer benägna att förfalska data och göra det i bredare skala än mer erfarna intervjuare (Schreiner et al., 1988; Hood & Bushery, 1997). Ändå rapporterar endast ett fåtal studier uppskattningar av förfalskningens omfattning. Dessa studier utvärderade storskaliga tvärsnittsundersökningar och antyder att andelen förfalskade intervjuer sällan överstiger 5% (Schreiner et al., 1988; Schraepler & Wagner, 2005; Li et al., 2009).

Effekten av förekomsten av förfalskade data på undersökningsresultaten är oklar. Bevisen som tillhandahålls i litteraturen slutar inte definitivt om förfalskade data förändrar marginella fördelningar eller resultaten av multivariata statistiska tekniker (t.ex. Reuband, 1990; Schnell, 1991; Diekmann, 2002; Schraepler & Wagner, 2005). All denna forskning baseras dock på undersökningar som endast innehöll små andelar av förfalskade data.

Oavsett omfattningen av dataförfalskning är det allmänna opinionen mycket angeläget om att ta itu med problemet. Standardmetoden är dubbelt: förebyggande och upptäckt (AAPOR, 2003; Lyberg & Biemer, 2008; Lyberg & Stukel, 2010). Förebyggande innefattar att utveckla en relation med leverantörer, noggrant utbilda intervjuare om mål, protokoll och utformning av en viss undersökning, liksom de allmänna principerna och praxis för intervjuer, att ersätta intervjuare på lämpligt sätt, begränsa antalet intervjuer som en viss intervjuare ansvarar för, övervaka en delmängd av intervjuerna för varje intervjuare, och slutligen, återkontakt eller omintervju, vanligtvis kallad backchecking, en delmängd av intervjuerna för varje intervjuare för att verifiera att de var färdiga och genomförda som dokumenterade. Men förebyggande kan vara kostsamt. Och även om det kan vara mycket effektivt är det inte en garanti för fullständigt giltiga data (Koch, 1995; Hood & Bushery, 1997).


Detekteringsmetoder tjänar två syften. Först hjälper de till att utvärdera prestanda för de dyra förebyggande metoderna. För det andra kan de användas för att identifiera förfalskade intervjuer som gled förbi förebyggande åtgärder (Bredl et al., 2012; Diakité, 2013; Menold & Kemper, 2013; Winker et al., 2013). Upptäcksmetoder innebär utvärdering av nyckelindikatorer, inklusive paradata (intervallängd, tidsstämplar, geokodning, intervjutidning), intervjurelaterad data (erfarenhet, daglig arbetsbelastning, framgångsnivåer) och intervjurelaterad data (egenskaper hos respondenter, intervjuinspelningar, resultat av backchecking), samt analys av svarsstrukturen (Benfords lag, avslag, extrema värderingar, sammanhängning av svaren, konsekvens i tidsserier, duplikat).

Men detektionsmetoder bara flagga data som är möjligen misstänkt. Identifiering av förfalskade data är inte resultatet av en enda åtgärd utan en bedömning av de olika aspekterna inom den studiespecifika miljö där intervjuarna bedriver sitt arbete. Judge and Schechter (2009) drar slutsatsen från sin analys av undersökningsdata att flera faktorer kan bidra till misstänkta mönster i data och att detektionsmetoder inte ska användas 'isolerat när man bedömer en datamängds kvalitet' (s. 24). Alla frågor kräver intensiv uppföljning med leverantörer för att fastställa den underliggande förklaringen av mönstren.

Kuriakose och Robbins föreslår en ny detektionsmetod, vilket föreslår en hård tröskel för antalet höga matchningar i en dataset för att flagga förfalskade data. Nästa avsnitt beskriver deras argument.

II.a Kuriakose och Robbins procedur och tröskel

I sin uppsats handlar Kuriakose och Robbins om en specifik typ av möjlig förfalskning, där intervjuare, handledare eller till och med huvudkontoret för ett undersökningsföretag duplicerar svaren från giltiga intervjuer för att nå önskad urvalsstorlek. För att undvika upptäckt skulle förfalskaren ändra svaren på några frågor för varje respondent så att respondenterna inte är exakta dubbletter av varandra.

Beräkning av maximal procentuell matchningMed denna modell av förfalskning i åtanke utvecklar författarna ett verktyg för det statistiska programmet Stata som identifierar den maximala andelen frågor som varje respondent matchar alla andra respondenter i datasetet. Om respondent A matchar respondent B på 75% av frågorna och matchar respondent C på 25% av frågorna, är den maximala procentsatsen för matchning för respondent A 75%. Tabellen illustrerar detta exempel.

Kuriakose och Robbins hävdar att två respondenter som matchar på en hög andel frågor borde vara en sällsynt förekomst i giltiga data. De gör sitt argument för denna slutsats baserat på en granskning av den allmänna opinionslitteraturen, simuleringar med syntetiska data och analys av amerikanska data från den allmänt respekterade och betrodda American National Election Studies (ANES) och General Social Survey (GSS).

Författarna citerar Converse (1964) och Zaller (1992), två forskare som hjälpte till att fastställa den konventionella visdomen att individs politiska övertygelser bara hålls svagt och sällan struktureras sammanhängande enligt ideologiska linjer. På grund av detta tenderar respondenterna att vara inkonsekventa i sina svar på enkätfrågor om liknande ämnen, inte bara över tiden utan även inom samma undersökning. Kuriakose och Robbins utökar denna logik för att hävda att två respondenter som delar samma attityder är mycket osannolika att ge konsekvent liknande svar på enkätsfrågor.

För att vidareutveckla denna teoretiska förväntan genomförde Kuriakose och Robbins en Monte Carlo-simulering med syntetiska data. Simuleringar med syntetiska data kan vara användbara för att förstå komplexa statistiska processer som är svåra att observera i verkliga data. En potentiell nackdel med användning av syntetiska data är dock att de förutsägelser som genereras kan ha liten inverkan på verkligheten om forskarens antaganden inte rimligen representerar strukturen i verkliga data.

För sin första simulering genererade Kuriakose och Robbins slumpmässigt 100 000 syntetiska datauppsättningar, var och en innehöll 1000 respondenter och 100 oberoende variabler. Variablerna tilldelades slumpmässigt ett värde på antingen 1 eller 0 för varje respondent. Sannolikheten för att något värde faller på 1 eller 0 anges inte i tidningen, men det verkar som om alla simulerade variabler är antingen resultatet lika troligt, vilket innebär att varje variabel har ett medelvärde på 0,5. Författarna beräknade sedan den maximala procent matchstatistiken för varje respondent. I denna simulering finner de att denna statistik har ett medelvärde på 66% och aldrig överstiger 85% över alla 100 000 simuleringar.

Som Kuriakose och Robbins diskuterar antog deras första simulering att variablerna i datasetet var oberoende av varandra, vilket är en helt annan situation än den faktiska undersökningsdata. För att ta itu med denna begränsning upprepade de denna simulering med hjälp av en slumpmässigt genererad korrelationsmatris för att testa situationen där variablerna inte är oberoende och finner att den maximala procenten matchar statistiken igen aldrig överstiger 85%, även om medelvärdet är högre än när variablerna är oberoende. Kuriakose och Robbins föreslår att deras simuleringar jämfört med en riktig undersökning är ett konservativt test av den maximala procentmatchningen i en dataset eftersom de flesta undersökningar använder frågor som består av många mer än två värden. Det vill säga de förväntar sig att simuleringen i genomsnitt borde ha högre maximala procentmatchningar än vad som förekommer i praktiken med icke-falsk data.

För att validera resultaten av deras simulering beräknar Kuriakose och Robbins den maximala procentuella matchningsstatistiken på datamängder från två studier utförda i USA - alla tillgängliga vågor från American National Election Studies (ANES, 1948 till 2012) och General Social Survey ( GSS, 1972 till 2014) som innehöll minst 100 frågor. I alla dessa datamängder fann författarna 35 respondenter som matchade en annan respondent på mer än 85% av frågorna, vilket stod för mindre än 0,05% av alla respondenter.

Kuriakose och Robbins anser att dessa resultat är en bekräftelse på deras simulerade resultat och drar slutsatsen att en rimlig tröskel för att identifiera sannolik förfalskning är andelen svarande som matchar en annan respondent på mer än 85% av alla materiella variabler. Författarna hävdar att närvaron av mer än 5% av respondenterna i en dataset som anses vara höga matchningar enligt 85% -tröskeln indikerar sannolik dataförfalskning.

II.b Bekymmer om Kuriakose och Robbins 'Approach

Med tanke på de utmaningar som alla forskare står inför när det gäller att samla in högkvalitativa undersökningsdata nationellt och internationellt är Kuriakose och Robbins satsning på att utveckla ett nytt diagnostiskt verktyg en del av en viktig forskningslinje. Logiken bakom författarnas tillvägagångssätt har emellertid två stora brister. Den första är att de matematiska antagandena som ligger till grund för deras argument är olämpliga. Det andra är att deras simuleringar, som är en av nyckelfundamenten för deras etablerade tröskelvärde, är underspecificerade och har liten likhet med verkliga undersökningsdata.

Kuriakose och Robbins initiala teoretiska förväntningar om huruvida två respondenter kommer att ge identiska svar på en delmängd av frågor (85%) baseras på sannolikheten för att två respondenter ger identiska svar på alla frågor. Författarna noterar att två respondenter med 95% chans att komma överens om var och en av 100 frågor kommer att matcha på alla 100 frågor mindre än 1% av tiden (s.4). Vad författarna inte tar upp är dock att sannolikheten för matchning på en delmängd av frågor, till exempel 85%, är exponentiellt högre än sannolikheten för matchning på alla frågor. Till exempel, i en undersökning med 100 frågor finns det bara en uppsättning frågor som gör det möjligt för två respondenter att matcha på alla 100 frågor. Men det finns 3,1 × 1017olika uppsättningar frågor som gör det möjligt för två respondenter att matcha på minst 85 av frågorna. Detta innebär att två respondenter med 95% chans att komma överens om var och en av de 100 frågorna kommer att komma överens om minst 85 av dessa frågor över 99% av tiden.

Detta pekar på den större svagheten i Kuriakose och Robbins tillvägagångssätt - nämligen att författarna inte systematiskt utvärderar undersökningsegenskaperna som skulle få sannolikheten för höga matchningar att variera, såsom provstorlek, antal frågor, antal svarsalternativ eller homogenitet inom befolkningen. Dessa parametrar har en direkt inverkan både på antalet möjliga svarskombinationer såväl som antalet respondenter som är en potentiell matchning.

Kuriakose och Robbins hävdar att deras Monte Carlo-simuleringar ger en försiktig uppskattning av fördelningen av den maximala procentmatchen. Som vi kommer att visa valde de dock mycket specifika villkor för sina simuleringar - 100 frågor, 1000 respondenter, 0,5 medel för alla variabler - som ledde dem till att hitta några höga matchningar. I synnerhet har antagandet att alla variabler har ett medelvärde på 0,5 liten likhet med verkligheten. I de flesta opinionsundersökningar är vissa proportioner närmare antingen noll eller en, vilket återspeglar det faktum att det ofta finns majoritetsuppfattningar eller beteenden om ämnen som studerats i undersökningar. Om vi ​​antar att medelvärdet för varje fråga i en undersökning är 0,5 underskattar den grad i vilken det finns en viss naturlig likhet mellan respondenterna.

Med tanke på vår oro över författarnas påstående om omfattande förfalskning i internationella undersökningar men också våra tvivel om argumenten bakom deras föreslagna tröskel, fortsatte vi en flerstegs forskningsdesign för att helt förstå om förekomsten av höga matchningar i en undersökningsdataset är ett resultat av bedrägeri eller av olika undersökningsegenskaper.

III. a Utvärdera tröskeln

Förväntningar om effekt av parametrar på andelen höga matchningarVi utvärderade känsligheten för den föreslagna tröskeln för ytterligare parametrar som inte testades i originalet i ett försök att bättre förstå hur statistiken skulle reagera på variation i verkliga undersökningsförhållanden. Den första parametern är antalet frågor. Med fler frågor bör sannolikheten att två respondenter matchar på en stor andel av dessa frågor minska. Den andra är antalet svarsalternativ i frågorna. Med fler svarsalternativ är respondenterna mindre benägna att ge samma svar som någon annan. Den tredje är antalet svarande. Med fler respondenter i datasetet finns det fler möjligheter för respondenter att matcha. Den fjärde är homogeniteten i provet. När innehållet i undersökningen eller befolkningen som undersöks leder till större homogenitet i åsikter, antingen i hela urvalet eller bland vissa undergrupper, bör sannolikheten för en matchning mellan två respondenter öka. Tabellen sammanfattar dessa förväntningar.

Vi utvärderade inverkan av dessa fyra parametrar på andelen höga matchningar i datamängder med simuleringar med syntetiska data och faktiska undersökningsdata, samt med analys av högkvalitativa amerikanska och internationella undersökningar. Vi tycker att Kuriakose och Robbins tröskel är extremt känslig för alla fyra parametrar som diskuterats ovan. Eftersom det är möjligt att få höga maximala procentmatchningar med icke-falsk data under några ganska vanliga förhållanden, indikerar vår analys att det inte är lämpligt att använda en enda tröskel för den maximala procentmatchningsstatistiken för att identifiera förfalskning.

Simuleringar med syntetiska data

Simuleringar är användbara eftersom de gör det möjligt för forskaren att genomföra analyser i en mycket kontrollerad miljö. Vi kan ställa in villkoren för de parametrar som vi tycker ska ha betydelse och utvärdera hur en statistik förändras när vi bara varierar en av dessa parametrar. Denna typ av analys gör att vi kan utveckla teoretiska förväntningar om hur verkliga data ska bete sig. En allvarlig begränsning av att använda syntetiska data för denna typ av analys är dock att om antagandena skiljer sig väsentligt från verkliga situationer kanske de teoretiska förväntningarna från dem inte är särskilt användbara.

Vi upprepade Kuriakose och Robbins simulering som använde oberoende binära variabler där medelvärdet för varje variabel var 0,5. Vi utvidgade deras analys genom att variera antalet frågor, antalet svarande och medelvärdet av variablerna. För antalet frågor testade vi värden från 20 till 120 i steg om 20. För antalet svarare testade vi värden från 500 till 2500 i steg om 500. Vi genomförde denna uppsättning simuleringar två gånger. Första gången satte vi medelvärdet för varje variabel till 0,5, överensstämmer med Kuriakose och Robbins strategi. Andra gången ställer vi in ​​medelvärdet för varje variabel slumpmässigt från en enhetlig fördelning mellan 0 och 1. Detta andra tillstånd liknar närmare verkligheten i undersökningsdata, där vissa variabler har medel nära 0,5 medan andra har medel som närmar sig ytterligheterna av antingen 0 eller 1. Variabler med medel närmare 0 eller 1 representerar typen av frågor i enkäter där respondenterna är mer homogena i sina åsikter.

Simuleringar med undersökningsdata

Medan den rent matematiska övningen av simuleringar med syntetiska data kan vara användbar för att utveckla grundläggande teoretiska förväntningar, är bekymmerna om att de syntetiska uppgifterna inte i tillräcklig utsträckning representerar faktiska undersökningsdata en allvarlig begränsning. För att ta itu med detta genomförde vi också simuleringar med faktiska undersökningsdata för att förstå effekterna av olika parametrar i verkliga förhållanden. Vi använde American National Election Study 2012 och Arab Barometer Wave III Lebanonundersökningar som grund för ytterligare simuleringar. Detta är två högkvalitativa undersökningar som baseras på Kuriakose och Robbins tröskel antas vara fria från dubbelarbete. De två undersökningarna har stora urvalsstorlekar, med mellan 1 000 och 2 000 fall, och långa frågeformulär, med ungefär 200 eller fler väsentliga frågor.1Undersökningens storlek gör det möjligt för oss att slumpmässigt välja delprover av frågor och respondenter från alla frågor och alla tillgängliga respondenter. Genom att göra det kan vi variera viktiga parametrar i en halvkontrollerad miljö med hjälp av verkliga undersökningsdata där variablerna och respondenterna nu är korrelerade. Vi utesluter alla frågor för vilka över 10% av de svarande saknar värden.

Med hjälp av denna metod utvärderade vi också effekten av antalet svarsalternativ i frågorna med ANES. Vi genomförde liknande simuleringar som de som beskrivits ovan, varvid antalet frågor och provstorleken varierade, men också slumpmässigt samplade variabler baserat på deras antal svarsalternativ. Vi gjorde detta för överlappande delar av svarsalternativet (t.ex. variabler med två till fyra svarsalternativ, med tre till fem svarsalternativ etc.).

Utvärdering av amerikanska undersökningsdata av hög kvalitet

Slutligen undersöker vi djupare inverkan av befolkningens homogenitet på andelen höga matchningar. Den underliggande homogeniteten hos en befolkning kommer att påverkas av innehållet i undersökningen - respondenterna är mer benägna att komma överens om vissa frågor än andra frågor - och det naturliga avtalet inom undergrupper av befolkningen - vissa grupper av respondenter är mer benägna att komma överens med var och en andra än andra svarande.

För utvärderingen av innehållet i undersökningen jämförde vi andelen höga matchningar i inhemsk undersökningsdata från Pew Research Center med de teoretiska förväntningarna som härrör från simuleringarna baserade på ANES. De verkliga undersökningsdata vi använde är som ANES genom att det finns liten oro för förekomsten av förfalskade data, eftersom undersökningarna är slumpvisa telefonundersökningar med centraliserad och live intervjuare övervakning och insamling av detaljerade kontaktuppgifter. De skiljer sig från ANES genom att de har kortare frågeformulär om några koncentrerade ämnen. För analysen granskade vi fyra politiska undersökningar som genomfördes av Pew Research Center 2014 och 2015, inklusive den stora 2014 Political Polarization and Typology survey, en valundersökning i oktober 2014 och två typiska månatliga undersökningar från 2015 som täckte stora politiska frågor i nyheterna vid tiden. Innehållet som omfattas av alla dessa undersökningar varierar avsevärt, men de månatliga undersökningarna tenderar att koncentrera sig på några viktiga nyhetsvärden.

För att förstå inverkan av befolkningshomogenitet bland undergrupper på förekomsten av höga matchningar använde vi de fyra politiska undersökningarna som beskrivits ovan samt 2014 Religious Landscape Study genomförd av Pew Research Center, som är en nationellt representativ telefonundersökning av 35 071 amerikanska vuxna med 41 materiella frågor till alla svarande. Datainsamlingen för landskapsstudien genomfördes av tre olika forskningsföretag. Generellt sett är den amerikanska befolkningen mycket varierande. Men det innehåller också tydliga fickor av mer homogena undergrupper med avseende på olika frågor som omfattas av varje undersökning. De politiska undersökningarna frågar om en rad frågor som polariserar demokrater och republikaner, vilket gör det möjligt för oss att utvärdera hur andelen höga matcher skiljer sig mellan partisan-grupper. Religious Landscape Study innehåller bland annat frågor om religiös identitet och tro och praxis. Undersökningens stora storlek gör det möjligt för oss att analysera religiösa grupper som är relativt små, homogena delar av befolkningen, såsom mormoner, med en robust urvalsstorlek.

III.b Resultat: Simuleringar med syntetiska data

Vi genomförde simuleringar med syntetiska data för att generera inledande teoretiska förväntningar på vad vi ska se i verkliga undersökningsdata när det gäller förekomsten av höga matchningar. Vår första simulering utökade Kuriakose och Robbins tillvägagångssätt genom att hålla de variabla medlen på 0,5, men testa variationer på antalet frågor och antalet svar som ingår i varje undersökning. För varje simulerad undersökning beräknade vi andelen respondenter som klassificerades som en hög matchning, vilket innebär att respondenten matchar en annan respondent på mer än 85% av frågorna. Varje kombination av provstorlek och antal respondenter replikerades 1000 gånger.

Figur 1. Känslighet för statistik med hög matchning mot antal frågor och medelNär det variabla medlet är fastställt till 0,5, finns det inga svar som klassificeras som en hög matchning i någon av simuleringarna med 100 eller fler frågor, och endast en handfull uppfyller tröskeln på 85% med 40 eller 60 frågor, oavsett provstorlek. Endast vid 20 frågor kvalificerar en betydande andel av respondenterna som höga matchningar, med en median på 10% när urvalsstorleken är 500 och en median på 40% när urvalsstorleken är 2500. Resultaten för datamängderna med 100 variabler och 1000 respondenter överensstämmer med Kuriakose och Robbins simulering. Diagrammet för alla dessa simuleringar finns i bilaga A.

Men när de variabla medlen tillåts variera slumpmässigt, uppstår en helt annan bild. Figur 1 jämför resultaten av dessa simuleringar när provstorleken är inställd på 1 000 (bilaga A har grafer för alla simuleringar). När medel varierar mellan frågor ökar andelen respondenter som kvalificerar sig som höga matcher dramatiskt. Med 20 frågor hade medianundersökningen 91% höga matchningar, medan vid 60 frågor hade medianundersökningen 15%. Även vid 120 frågor har över en tredjedel av simuleringarna höga matchningar, från 2% till 14%.

I sina simuleringar testade Kuriakose och Robbins en enda kombination av enkätparametrar - 1 000 svarare och 100 binära frågor med medel som implicit fastställts till 0,5. Våra ytterligare simuleringar visar att deras resultat är mycket känsliga för deras val av parametrar. Undersökningar med färre frågor, större urval eller artiklar med höga nivåer av respondentöverenskommelse kan alla förväntas ge svarare som liknar varandra mer. Dessutom förblir dessa syntetiska datasimuleringar mycket orealistiska. Frågor har bara två svarkategorier och de är alla oberoende. Detta är inte en tillräcklig grund för att skapa hypoteser om vad som kan förväntas i praktiken, eftersom frågor ofta är korrelerade med varandra och ofta innehåller fler svarsalternativ.

III.c Resultat: Simuleringar med faktiska undersökningsdata

För att replikera mer realistiska undersökningsförhållanden medan vi fortfarande behåller kontrollen över undersökningsfunktionerna, genomförde vi ytterligare simuleringar med hjälp av data från ANES före valundersökningen 2012 och Arab Barometer Wave III Libanonundersökningen genom att slumpmässigt välja uppsättningar frågor och respondenter i varierande kombinationer. Detta är undersökningar som innehåller många frågor med mer än två svarsalternativ och där sambandet mellan frågor och likheter mellan respondenterna speglar de faktiska befolkningarna.

Först använde vi ANES-data för att bedöma hur andelen höga matchningar i en undersökning är relaterad till antalet svarskategorier i enkätfrågor. Vi gjorde detta genom att utföra simuleringar som varierade antalet svarsalternativ per fråga utöver antalet frågor och provstorleken. I stället för att slumpmässigt välja bland alla möjliga frågor i en undersökning, väljer dessa simuleringar slumpmässigt från frågor som har två till fyra, tre till fem, fyra till sex eller fem till sju svarkategorier. Figur 2 innehåller resultaten för datamängderna med 1 000 respondenter.

Figur 2. Känslighet för statistik med hög matchning mot antal svarskategorier

Som med de syntetiska simuleringarna fortsätter antalet frågor och respondenter att påverka andelen höga matchningar. Vi finner också att när antalet svarsalternativ minskar ökar andelen höga matchningar avsevärt. Som förväntat varierar detta också med antalet frågor och urvalsstorleken, men när det bara finns två till fyra svarsalternativ varierar medianandelen av höga matchningar från 87% när det finns 20 frågor till 25% när det finns 80 frågor . Detta bekräftar vad vi förväntar oss intuitivt - att andelen höga matchningar i en undersökning kommer att vara känslig inte bara för antalet frågor utan också för de typer av frågor som ingår i en undersökning. De flesta undersökningar kommer att innehålla en blandning av frågor med olika antal svarsalternativ som sträcker sig från få till många. För en given undersökning är detaljerna i den fördelningen en annan viktig avgörande faktor för antalet höga matchningar som skulle vara närvarande.

Figur 3. Jämförelse av höga matchningar i ANES- och LibanonsimuleringarnaResultaten för de två till fyra svarsalternativen representerar också en betydande avvikelse från de resultat som erhållits med de syntetiska datasimuleringarna. Med de syntetiska uppgifterna, när antalet svarare är 1 000, är ​​det variabla medlet fastställt till 0,5, antalet frågor är 80 och antalet svarsalternativ är två, det finns inga höga matchningar under dessa förhållanden. Under samma förhållanden i ANES (med undantag för 0,5 medelvärden) är medianprocenten av höga matchningar över 1000 replikationer 25%. Denna jämförelse betonar på nytt att, i motsats till vad Kuriakose och Robbins hävdar, är deras simuleringar inte en konservativ uppskattning av procentandelen höga matchningar i verkliga undersökningsdata. Dessutom föreslår denna jämförelse att en tröskel baserad på simuleringar med syntetiska data inte är relevant för vad vi ska se i verkliga data.

Vi genomförde också jämförbara simuleringar med Arab Barometer Wave III Libanonundersökningen som utfärdades 2013. Syftet med denna jämförelse är att utvärdera förekomsten av höga matchningar under olika förhållanden i en icke-falsk dataset som undersökte en annan population. Figur 3 innehåller en jämförelse av simuleringar från ANES- och Arabbarometerundersökningarna med en urvalsstorlek på 1 000 och varierande antal frågor mellan 20 och 120 frågor.2I denna uppsättning simuleringar kan antalet svarsalternativ i frågorna variera.

Vi ser väldigt olika fördelningar av höga matchningar i ANES- och Arabbarometerundersökningarna. Medan andelen höga matchningar i ANES är nästan noll för alla utom 20-frågestillståndet, återspeglar Libanons simuleringar en högre andel höga matchningar, även vid 100 eller 120 frågor. Detta indikerar att sannolikheten för att två svarande matchar på mer än 85% av frågorna inte bara beror på antalet svarare eller antalet frågor utan också på det specifika undersökningsinnehållet och befolkningen som undersöks. Med andra ord, en tröskel baserad på ANES och andra undersökningar som genomförts i USA generaliseras inte nödvändigtvis till andra länder. Även inom ett enda land finns det ingen a-priori anledning att tro att fördelningen av höga matchningar som observerats i en undersökning bör likna en annan undersökning med annat innehåll.

III.d Resultat: Pew Research Center U.S.Undersökningsdata

I det här nästa avsnitt utvärderar vi inverkan av befolkningshomogenitet - antingen på grund av innehåll eller undergruppsöverenskommelse - på andelen höga matchningar med hjälp av inhemska undersökningar från Pew Research Center. Fördelarna med denna fas av forskningen är dubbla. En, vi kan utvärdera variationen i andelen höga matchningar under en mängd verkliga förhållanden och jämföra dessa resultat med de teoretiska förväntningarna som härrör från simuleringarna med syntetiska data och ANES-data. Två, eftersom dessa undersökningar är högkvalitativa telefonundersökningar med liveintervjuerövervakning och insamling av detaljerade kontaktuppgifter har vi liten anledning att misstänka att det finns förfalskning av uppgifter. Därför förklaras skillnaderna mellan de teoretiska förväntningarna och de verkliga uppgifterna mer sannolikt av befolkningshomogenitet än av bedrägliga data.

Utvärdera effekterna av frågeformulärets innehåll

De fyra politiska undersökningarna vi analyserade har ett relativt blygsamt antal frågor som ställs till hela urvalet (cirka 30 till 50). Antalet respondenter varierar mellan 1 500 och 2 000 för de tre månatliga undersökningarna och är 10 000 för polariseringsstudien. Tabellen rapporterar andelen respondenter som matchar en annan respondent på mer än 85% av de materiella variablerna för var och en av de fyra analyserade undersökningarna, tillsammans med parametrarna för varje undersökning, inklusive antal respondenter, antal frågor och procentandel med fem eller fler svarsalternativ.

Höga matchningar i amerikanska politiska undersökningarSammantaget finns det stora procentandelar av höga matchningar i hela urvalet, från 12% i september 2015-undersökningen till 39% i 2014 års polariseringsstudie. Till stor del drivs antalet höga matchningar sannolikt av det låga antalet vanliga frågor, det relativt låga antalet svarsalternativ och de stora urvalsstorlekarna, särskilt i polariseringsstudien.

I juli 2015-undersökningen med 52 frågor och 2 002 tillfrågade finner vi dock att 13% av urvalet stämmer högt. I simuleringarna med syntetiska data med 0,5 betyder, liksom simuleringarna med ANES-data, är medianprocenten av höga matchningar över 1000 replikationer med dessa förhållanden 0. Med tanke på att det finns liten oro för förekomsten av dataförfalskning i I juli 2015-undersökningen avslöjar denna jämförelse att frågeformulärets innehåll och sammanhang kan ha en betydande inverkan på andelen höga matchningar i en dataset. Resultaten tyder också på att en enda tröskel för den maximala procenten matchar statistik baserad på simuleringar med syntetiska data och ANES kanske inte är lämplig.

Utvärdera effekterna av befolkningens homogenitet

Höga matcher från Partisan GroupFör att förstå effekten av befolkningshomogenitet på andelen höga matchningar i en datamängd på grund av undergruppsöverenskommelse utvärderade vi hur andelen höga matchningar varierar efter partisan-grupp i de fyra politiska undersökningarna. Tabellen visar procentandelen respondenter i varje partisan-grupp för varje undersökning som matchar högt. Människor som identifierar sig med ett politiskt parti tenderar att vara mer polariserade och fasta i sin politiska tro än de som säger att de är oberoende, och därför förväntar vi oss högre nivåer av homogenitet bland partisaner. Vi finner faktiskt att republikaner och demokrater tenderar att ha högre procentandelar av höga matcher än oberoende, även om den exakta andelen varierar beroende på undersökning. Vi hittar också variation i andelen höga matchningar per partisan-grupp mellan undersökningar som överensstämmer med innehållet i och den politiska kontexten i undersökningen. Till exempel ledde valet 2014 till omfattande vinster för det republikanska partiet. I den valfokuserade undersökningen i oktober 2014 hade republikanerna den högsta andelen höga matcher, vilket tyder på en hög homogenitet inom gruppen som går in i valet.

Vi undersökte också effekterna av befolkningshomogenitet med hjälp av 2014 Religious Landscape Study, som är en mycket stor undersökning av 35 071 respondenter som täcker flera frågor, inklusive religiös identitet och tro. Eftersom det procentuella matchningsverktyget som utvecklats av Kuriakose och Robbins inte kan bearbeta en dataset av den här storleken, utvärderade vi 10 slumpmässiga prover från datasetet med ungefär 1000 respondenter vardera för att få en känsla för antalet höga matchningar totalt. Den högsta andelen svarande som matchar en annan respondent på mer än 85% av de materiella variablerna i något av de 10 slumpmässiga urvalen är 6%. Dessutom analyserade vi slumpmässiga urval av cirka 1000 respondenter för vart och ett av de tre fälthus som genomförde undersökningen. Varje fälthus uppvisar relativt lika procentandelar av höga matchningar, mellan 4% och 7%. Detta förstärker argumentet att dessa uppgifter inte är förfalskade.

Höga matchningar bland religiösa grupper i RLSNär vi väl tittat på specifika religiösa undergrupper ökar dock andelen höga matchningar avsevärt. Vi analyserade fyra religiösa undergrupper separat med samma uppsättning av 41 frågor. I denna uppsättning av 41 frågor har 54% av frågorna fem eller fler svarsalternativ. I tabellen listas andelen höga matchningar och antalet respondenter för var och en av de fyra olika religiösa grupperna. Mormoner har den högsta andelen, med 39% av de svarande som matchar högt. Ateister har 33% höga matcher och Southern Baptists har 31% höga matcher. På många religionundersökningar tenderar dessa tre religiösa grupper att vara mer homogena i sin tro och praxis än andra amerikanska religiösa grupper. Judar har däremot väldigt få höga matchningar (1%). Som med de partisaniska skillnaderna i den politiska undersökningen tyder de religiösa skillnaderna i denna undersökning på att homogenitet inom specifika populationer kan öka andelen höga matchningar i datasetet utan att indikera förekomsten av förfalskade data.

Resultaten från både de politiska undersökningarna och RLS tyder på att även i högkvalitativa datamängder i USA som genomförs under stränga kvalitetskontroller finns det stor variation i andelen höga matchningar. Denna variation drivs delvis av ämnen som omfattas av undersökningen och homogeniteten hos befolkningen, eller undergrupper av befolkningen, om dessa ämnen. ANES-undersökningarna genomförs med en mycket varierande befolkning med hjälp av ett varierat och långt frågeformulär. Resultaten i detta avsnitt, tillsammans med resultaten av de tidigare diskuterade simuleringarna, antyder att det är olämpligt att tillämpa en tröskel baserad på analys av ANES på andra populationer och andra typer av frågeformulär.

IV. Diskussion

Kuriakose och Robbins hävdar i sin uppsats att två respondenter som matchar på en hög andel frågor borde vara en sällsynt förekomst i giltiga data, och att närvaron av respondenter som matchar på mer än 85% av frågorna är en indikation på förfalskning. De gör sitt argument för denna slutsats baserat på en granskning av allmän opinionslitteratur, simuleringar med syntetiska data och analys av data från American National Election Study och General Social Survey.

Antagandena som ligger till grund för deras argument - och de datamängder som de använde för att utveckla sin tröskel - väcker några allvarliga frågor om huruvida höga matchningar i en dataset är en definitiv indikator på förfalskning eller om höga matchningar kan vara resultatet av olika permutationer av undersökningens egenskaper. . Målet med denna uppsats var att förstå under vilka förhållanden höga matchningar kan finnas i giltiga undersökningsdata.

Med hjälp av syntetiska simuleringar såväl som högkvalitativa inhemska och internationella datamängder visar vi att andelen höga matchningar varierar mycket mellan datamängder och påverkas av en mängd olika faktorer. Karakteristiken för en undersökning, såsom antalet frågor, antalet svarsalternativ, antalet svarande och befolkningens homogenitet, eller undergrupper i dem, påverkar alla andelen höga matchningar i en dataset. Resultaten visar att det är möjligt att erhålla valfritt värde för den maximala procentmatchningsstatistiken i icke-falsk data, beroende på enkätparametrarna. Att sätta en tröskel för statistiken och tillämpa den enhetligt över enkäter är således ett felaktigt tillvägagångssätt för att upptäcka förfalskning. Att eliminera respondenter från en dataset baserat på denna åtgärd kan faktiskt införa urvalsbias i undersökningsdata och tjäna till att minska datakvaliteten snarare än att förbättra den.

Kuriakose och Robbins tröskel för dessa egenskaper belyser behovet av att förstå den undersökningsspecifika miljön i en undersökning för att utvärdera betydelsen av någon statistisk bedömning av data. Bredl et al. (2011) framhäver detta genom att dra slutsatsen att '' man måste komma ihåg att slående indikatorvärden inte nödvändigtvis orsakas av datafabricering utan också kan vara resultatet av 'konventionella' intervjueffekter eller klusterrelaterade designeffekter (rumslig homogenitet ') ( s.20). Varje datakvalitetsbedömning måste ta hänsyn till de specifika designegenskaperna samt de specifika villkoren för en undersökning innan man drar slutsatser.

Ändå deltar Kuriakose och Robbins i en viktig diskussion om hur man kan förbättra detekteringsmetoder för dataförfalskning. Användningen av ny teknik för personliga undersökningar, såsom enheter för datorassisterad personlig intervju (CAPI), ger många nya möjligheter när det gäller att säkerställa datakvalitet genom förebyggande och detekteringsmetoder. CAPI gör det mycket enklare att samla in data om viktiga aspekter av undersökningsprocessen utöver materiella data (dvs. paradata eller hjälpdata). Dessa data kan konverteras från en biprodukt från undersökningen till ett primärt analytiskt verktyg för att bedöma undersökningens kvalitet.

En särskilt lovande innovation är mätningen av tid under hela undersökningen i ansikte mot ansikte studier. Detta inkluderar den totala längden på en undersökning, från början till slut, men också den tid det tar att gå igenom avsnitt i frågeformuläret eller att svara på en specifik fråga. Mätningen av sektionstider kan användas för att utvärdera om respondenten eller intervjuaren kan ha haft ovanliga svårigheter med ett visst avsnitt, eller om intervjuaren kanske inte har tagit rätt tid att ställa vissa frågor. En annan intressant väg för upptäckt av förfalskade data via CAPI är användningen av ljudinspelningar vid slumpmässiga punkter i intervjun. Detta gör det möjligt för forskaren att granska om respondenten och / eller intervjuaren talade och om samma respondent svarar på frågorna under hela undersökningen. Andra aspekter som effektivt kan inbäddas i en datorassisterad intervjumiljö ligger inom hushållens urvalsförfaranden, samt insamling av geografisk spårningsinformation. Samhället utforskar fortfarande hur man använder den här typen av information på det mest effektiva sättet.

Ändå skulle även dessa nya tillvägagångssätt behöva utvärderas tillsammans med en rad andra indikatorer. Alla efterföljande statistiska analyser av data har sina begränsningar. Således bör forskare försöka involvera leverantörer i bedömningen av datakvaliteten.

Att engagera leverantörer i bedömningen av misstänkta data ger två fördelar. För det första hjälper det till att minska informationsklyftan som skapas av huvudagentdilemmaet genom att låta forskare lära sig något om de specifika förhållandena under vilka intervjuarna arbetade. Detta kommer att bidra till den övergripande tolkningen av själva data, men kommer också att hjälpa till med utvärderingen av misstänkta datamönster. För det andra stänger kretsen av förebyggande och upptäckt genom att involvera leverantörer och placerar hela bedömningen i ett vidare sammanhang av kvalitetssäkring. Medverkan från leverantörer gör att leverantören och forskaren kan utvärdera och lära sig för framtida projekt. Resultaten från upptäcktåtgärder bör informera om utformningen och strukturen för framtida frågeformulär, leda till nya tillvägagångssätt för att stimulera intervjuare och hjälpa till med utvecklingen av nya metoder för förebyggande och upptäckt.