Støyende data - Noisy data

Støyende data er data som er ødelagt, eller forvrengt, eller har en lav signal-til-støy-forhold . Feil prosedyrer (eller uriktig dokumenterte prosedyrer) for å trekke ut støyen i data kan føre til en falsk følelse av nøyaktighet eller falske konklusjoner.

Data = ekte signal + støy

Støyende data er data med en stor mengde ekstra meningsløs informasjon i det som kalles støy. Dette inkluderer datakorrupsjon, og begrepet brukes ofte som et synonym for korrupte data. Det inkluderer også data som et brukersystem ikke kan forstå og tolke riktig. Mange systemer kan for eksempel ikke bruke ustrukturert tekst . Støyende data kan påvirke resultatene av enhver dataanalyse og skje konklusjoner hvis de ikke håndteres riktig. Statistisk analyse brukes noen ganger for å luke støyen fra støyende data.

Kilder til støy

I dette eksemplet på en outlier og filtrering er punkt t2 en outlier. Den jevne overgangen til og fra outlier er fra filtrering, og er heller ikke gyldige data, men mer støy. Å presentere filtrerte resultater (de glatte overgangene) som faktiske målinger kan føre til falske konklusjoner.
Denne typen filter (et glidende gjennomsnitt ) skifter dataene til høyre. Den glidende gjennomsnittsprisen på et gitt tidspunkt er vanligvis mye annerledes enn den faktiske prisen på det tidspunktet.

Forskjeller i målte data fra de virkelige verdiene kommer fra flere faktorer som påvirker målingen.

Tilfeldig støy er ofte en stor komponent av støyen i data. Tilfeldig støy i et signal måles som signal-til-støy-forholdet . Tilfeldig støy inneholder nesten like store mengder av et bredt spekter av frekvenser, og kalles også hvit støy (som lysfarger kombineres for å gjøre hvitt ). Tilfeldig støy er et uunngåelig problem. Det påvirker datainnsamlingen og datautarbeidelsesprosesser, der feil ofte oppstår. Støy har to hovedkilder: feil introdusert av måleverktøy og tilfeldige feil introdusert av behandling eller av eksperter når dataene samles inn.

Feil filtrering kan gi støy hvis det filtrerte signalet behandles som om det var et direkte målt signal. Som et eksempel, konvolusjon -type digitale filtre en slik glidende gjennomsnitt kan ha bivirkninger som forsinkelser eller trunkering av topper. Differensierende digitale filtre forsterker tilfeldig støy i originaldataene.

Outlierdata er data som ser ut til å ikke høre hjemme i datasettet. Det kan være forårsaket av menneskelige feil som å transponere tall, feilmerking, programmering av feil osv. Hvis faktiske avvikere ikke fjernes fra datasettet, ødelegger de resultatene i liten eller stor grad avhengig av omstendighetene. Hvis gyldige data identifiseres som en outlier og feilaktig fjernes, ødelegger det også resultatene.

Bedrageri : Enkeltpersoner kan bevisst skje data for å påvirke resultatene mot en ønsket konklusjon. Data som ser bra ut med få avvik, reflekterer godt om den enkelte som samler den inn, og det kan derfor være insentiv til å fjerne mer data som avvik, eller få dataene til å se jevnere ut enn de er.

Referanser