Prediktiv analyse - Predictive analytics

Prediktiv analyse omfatter en rekke statistiske teknikker fra data mining , prediktiv modellering og maskinlæring som analyserer nåværende og historiske fakta for å spå om fremtidige eller på annen måte ukjente hendelser.

I virksomheten utnytter prediktive modeller mønstre som finnes i historiske og transaksjonelle data for å identifisere risiko og muligheter. Modeller fanger opp relasjoner mellom mange faktorer for å tillate vurdering av risiko eller potensial knyttet til et bestemt sett med forhold, og veileder beslutningstaking for kandidattransaksjoner.

Den definerende funksjonelle effekten av disse tekniske tilnærmingene er at prediktiv analyse gir en prediktiv poengsum (sannsynlighet) for hver enkelt person (kunde, ansatt, helsepasient, produkt -SKU, kjøretøy, komponent, maskin eller annen organisasjonsenhet) for å bestemme, informere , eller påvirke organisatoriske prosesser som gjelder på tvers av et stort antall individer, for eksempel innen markedsføring, kredittrisikovurdering, svindeloppdagelse, produksjon, helse og offentlige operasjoner, inkludert lovhåndhevelse.

Prediktiv analyse brukes i aktuariell vitenskap , markedsføring , virksomhetsledelse , sport/ fantasysport , forsikring , politi , telekommunikasjon , detaljhandel , reise , mobilitet , helse , barnevern , legemidler , kapasitetsplanlegging , sosiale nettverk og andre felt.

En av de mest kjente applikasjonene er kredittscoring , som brukes i hele virksomhetsledelsen . Scoringsmodeller behandler en kundes kreditthistorie , lånesøknad , kundedata, etc., for å rangordne enkeltpersoner etter sannsynligheten for å foreta fremtidige kredittbetalinger i tide.

Definisjon

Prediktiv analyse er et område av statistikk som omhandler å trekke ut informasjon fra data og bruke den til å forutsi trender og atferdsmønstre. Forbedringen av prediktiv webanalyse beregner statistiske sannsynligheter for fremtidige hendelser online. Prediktive analytiske statistiske teknikker inkluderer datamodellering , maskinlæring , AI , deep learning -algoritmer og data mining . Ofte er den ukjente hendelsen av interesse i fremtiden, men prediktiv analyse kan brukes på alle typer ukjente, enten det er i fortid, nåtid eller fremtid. For eksempel identifisere mistenkte etter at en forbrytelse er begått, eller svindel med kredittkort etter hvert som det skjer. Kjernen i prediktiv analyse er avhengig av å fange sammenhenger mellom forklarende variabler og de forutsagte variablene fra tidligere forekomster, og utnytte dem til å forutsi det ukjente utfallet. Det er imidlertid viktig å merke seg at nøyaktigheten og brukervennligheten av resultatene vil avhenge sterkt av dataanalysenivået og kvaliteten på forutsetninger.

Prediktiv analyse er ofte definert som å forutsi på et mer detaljert granularitetsnivå, det vil si å generere prediktive poeng (sannsynligheter) for hvert enkelt organisasjonselement. Dette skiller det fra prognoser . For eksempel, "Predictive analytics - Teknologi som lærer av erfaring (data) for å forutsi individets fremtidige oppførsel for å få bedre beslutninger." I fremtidige industrisystemer vil verdien av prediktiv analyse være å forutsi og forhindre potensielle problemer for å oppnå nær-null sammenbrudd og videre integreres i forskrivende analyse for beslutningsoptimalisering.

Typer

Vanligvis brukes begrepet prediktiv analyse for å bety prediktiv modellering , "score" data med prediktive modeller og prognoser . Imidlertid bruker folk i økende grad begrepet for å referere til relaterte analytiske disipliner, for eksempel beskrivende modellering og beslutningsmodellering eller optimalisering. Disse fagene involverer også streng dataanalyse, og er mye brukt i næringslivet for segmentering og beslutningstaking, men har forskjellige formål og de statistiske teknikkene som ligger til grunn for dem varierer.

Forutsigbare modeller

Prediktiv modellering bruker prediktive modeller for å analysere forholdet mellom den spesifikke ytelsen til en enhet i en prøve og en eller flere kjente attributter eller funksjoner for den enheten. Målet med modellen er å vurdere sannsynligheten for at en lignende enhet i et annet utvalg vil vise den spesifikke ytelsen. Denne kategorien omfatter modeller på mange områder, for eksempel markedsføring, der de søker subtile datamønstre for å svare på spørsmål om kunders ytelse eller modeller for å oppdage svindel. Prediktive modeller utfører ofte beregninger under direkte transaksjoner, for eksempel for å evaluere risikoen eller muligheten til en gitt kunde eller transaksjon, for å lede en beslutning. Med fremskritt i beregningshastigheten har individuelle agentmodelleringssystemer blitt i stand til å simulere menneskelig atferd eller reaksjoner på gitte stimuli eller scenarier.

De tilgjengelige prøveenhetene med kjente attributter og kjente forestillinger omtales som "treningsprøven". Enhetene i andre prøver, med kjente attributter, men ukjente prestasjoner, blir referert til som "out of [training] sample" -enheter. Ut av prøvenheter har ikke nødvendigvis et kronologisk forhold til opplæringseksempelene. For eksempel kan opplæringseksemplet bestå av litterære attributter til skrifter av viktorianske forfattere, med kjent attribusjon, og enheten utenfor prøven kan være nylig funnet skrift med ukjent forfatterskap; en prediktiv modell kan hjelpe til med å tilskrive et verk en kjent forfatter. Et annet eksempel er gitt ved analyse av blodsprut i simulerte åstedene der enheten utenfor prøven er det faktiske blodsprutemønsteret fra et åsted. Uten prøveeksamen kan være fra samme tid som opplæringsenhetene, fra en tidligere tid eller fra en fremtidig tid.

Beskrivende modeller

Beskrivende modeller kvantifiserer relasjoner i data på en måte som ofte brukes til å klassifisere kunder eller potensielle kunder i grupper. I motsetning til prediktive modeller som fokuserer på å forutsi en enkelt kundeadferd (for eksempel kredittrisiko), identifiserer beskrivende modeller mange forskjellige forhold mellom kunder eller produkter. Beskrivende modeller rangerer ikke kunder etter deres sannsynlighet for å iverksette en bestemt handling slik prediktive modeller gjør. I stedet kan beskrivende modeller brukes, for eksempel for å kategorisere kunder etter deres produktpreferanser og livsfase. Beskrivende modelleringsverktøy kan brukes til å utvikle ytterligere modeller som kan simulere et stort antall individualiserte agenter og forutsi.

Beslutningsmodeller

Beslutningsmodeller beskriver forholdet mellom alle elementene i en beslutning - de kjente dataene (inkludert resultater fra prediktive modeller), beslutningen og prognoseresultatene av beslutningen - for å forutsi resultatene av beslutninger som involverer mange variabler. Disse modellene kan brukes til optimalisering, maksimere visse utfall mens andre minimeres. Beslutningsmodeller brukes vanligvis for å utvikle beslutningslogikk eller et sett med forretningsregler som vil gi ønsket handling for hver kunde eller omstendighet.

applikasjoner

Selv om prediktiv analyse kan brukes i mange applikasjoner, skisserer vi noen eksempler der prediktiv analyse har vist positiv innvirkning de siste årene.

Virksomhet

Analytisk kundeforholdsstyring (CRM) er en hyppig kommersiell anvendelse av prediktiv analyse. Metoder for prediktiv analyse brukes på kundedata for å konstruere et helhetlig syn på kunden. CRM bruker prediktiv analyse i applikasjoner for markedsføringskampanjer, salg og kundetjenester. Analytisk CRM kan brukes gjennom kundenes livssyklus ( oppkjøp , relasjonsvekst , oppbevaring og vinn tilbake).

Ofte bedrifter organisasjoner samle inn og vedlikeholde rikelig data, for eksempel kunde poster eller salg transaksjoner. I disse tilfellene kan prediktiv analyse hjelpe til med å analysere kunders forbruk, bruk og annen oppførsel, noe som fører til effektivt kryssalg eller salg av tilleggsprodukter til nåværende kunder.

Riktig anvendelse av prediktiv analyse kan føre til mer proaktive og effektive oppbevaringsstrategier. Ved en hyppig undersøkelse av en kundes tidligere tjenestebruk, serviceytelse, utgifter og andre atferdsmønstre kan prediktive modeller avgjøre sannsynligheten for at en kunde avslutter tjenesten en gang snart. En intervensjon med tilbud med høy oppfattet verdi kan øke sjansen for å konvertere eller beholde kunden. Prediktiv analyse kan også forutsi stille slitasje, oppførselen til en kunde for sakte men jevnt å redusere bruken.

Barnevern

Noen barnevernsbyråer har begynt å bruke prediktiv analyse for å markere tilfeller med høy risiko. For eksempel i Hillsborough County, Florida , har barnevernets bruk av et prediktivt modelleringsverktøy forhindret overgrepsrelaterte barnedødsfall i målpopulasjonen.

Kliniske beslutningsstøttesystemer

Prediktiv analyse har funnet bruk i helsevesenet først og fremst for å avgjøre hvilke pasienter som er utsatt for å utvikle tilstander som diabetes, astma eller hjertesykdom. I tillegg inneholder sofistikerte kliniske beslutningsstøttesystemer prediktiv analyse for å støtte medisinsk beslutningstaking.

En studie fra 2016 av nevrodegenerative lidelser gir et kraftig eksempel på en CDS -plattform for å diagnostisere, spore, forutsi og overvåke utviklingen av Parkinsons sykdom .

Forutsi utfallet av juridiske avgjørelser

Forutsigelsen av utfallet av juridiske avgjørelser kan gjøres av AI -programmer. Disse programmene kan brukes som hjelpemiddel for yrker i denne bransjen.

Prognose for portefølje, produkt eller økonomi

Ofte er analysens fokus ikke forbrukeren, men produktet, porteføljen, firmaet, industrien eller til og med økonomien. For eksempel kan en forhandler være interessert i å forutsi etterspørsel på butikknivå for lagerstyringsformål. Eller Federal Reserve Board kan være interessert i å forutsi arbeidsledigheten for neste år. Denne typen problemer kan løses ved prediktiv analyse ved hjelp av tidsserieteknikker (se nedenfor). De kan også adresseres via maskinlæringsmetoder som forvandler de originale tidsseriene til et funksjonsvektorrom, hvor læringsalgoritmen finner mønstre som har prediktiv kraft.

Undertegning

Mange virksomheter må redegjøre for risikoeksponering på grunn av sine forskjellige tjenester og bestemme kostnadene som trengs for å dekke risikoen. Prediktiv analyse kan hjelpe til med å tegne disse mengdene ved å forutsi sjansene for sykdom, mislighold , konkurs osv. Prediktiv analyse kan effektivisere prosessen med oppkjøp av kunder ved å forutsi en kundes fremtidige risikeadferd ved bruk av data på applikasjonsnivå. Prediktiv analyse i form av kredittpoeng har redusert tiden det tar for lånegodkjenninger, spesielt i boliglånsmarkedet. Riktig prediktiv analyse kan føre til riktige prisbeslutninger, noe som kan bidra til å redusere fremtidig risiko for mislighold.

Teknologi og big data -påvirkning

Big data er en samling datasett som er så store og komplekse at det blir vanskelig å jobbe med tradisjonelle databaseadministrasjonsverktøy . Volum, variasjon og hastighet av store data har introdusert utfordringer over hele linjen for fangst, lagring, søk, deling, analyse og visualisering. Eksempler på store datakilder inkluderer weblogger , RFID , sensordata , sosiale nettverk , indeksering av søk på Internett, detaljer om anropsdetaljer, militær overvåking og komplekse data innen astronomiske, biogeokjemiske, genomiske og atmosfæriske vitenskaper. Big Data er kjernen i de mest prediktive analytiske tjenestene som tilbys av IT -organisasjoner. Takket være teknologiske fremskritt innen maskinvare-raskere prosessorer, billigere minne og MPP- arkitekturer-og nye teknologier som Hadoop , MapReduce og in-database og tekstanalyse for behandling av store data, er det nå mulig å samle, analysere og gruve enorme mengder strukturerte og ustrukturerte data for ny innsikt. Det er også mulig å kjøre prediktive algoritmer på streaming data. I dag er utforsking av store data og bruk av prediktiv analyse innen rekkevidde for flere organisasjoner enn noensinne, og nye metoder som er i stand til å håndtere slike datasett foreslås.

Analytiske teknikker

Tilnærmingene og teknikkene som brukes til å utføre prediktiv analyse kan stort sett grupperes i regresjonsteknikker og maskinlæringsteknikker.

Regresjonsteknikker

Regresjonsmodeller er bærebjelken i prediktiv analyse. Fokuset ligger på å etablere en matematisk ligning som en modell for å representere samspillet mellom de forskjellige variablene som vurderes. Avhengig av situasjonen er det et stort utvalg modeller som kan brukes mens du utfører prediktiv analyse. Noen av dem diskuteres kort nedenfor.

Lineær regresjonsmodell

Den lineære regresjonsmodellen forutsier responsvariabelen som en lineær funksjon av parametrene med ukjente koeffisienter. Disse parameterne justeres slik at et mål på passform er optimalisert. Mye av innsatsen i modelltilpasning er fokusert på å minimere størrelsen på resten, i tillegg til å sikre at den er tilfeldig fordelt i forhold til modellspådommene.

Målet med regresjon er å velge parametrene til modellen for å minimere summen av de kvadrerte restene. Dette blir referert til som vanlig minste kvadratestimering (OLS).

Diskrete utvalgsmodeller

Multiple regresjon (ovenfor) brukes vanligvis når responsvariabelen er kontinuerlig og har et ubegrenset område. Ofte er ikke responsvariabelen kontinuerlig, men ganske diskret. Selv om det matematisk er mulig å anvende multiple regresjon på diskrete ordnede avhengige variabler, holder noen av forutsetningene bak teorien om multiple lineær regresjon ikke lenger, og det er andre teknikker som diskrete valgmodeller som er bedre egnet for denne typen analyse. Hvis den avhengige variabelen er diskret, er noen av de overlegne metodene logistisk regresjon , multinomial logit og probit -modeller. Logistiske regresjons- og probit -modeller brukes når den avhengige variabelen er binær .

Logistisk regresjon

I en klassifiseringsinnstilling kan tildeling av utfallssannsynligheter til observasjoner oppnås ved bruk av en logistisk modell (også kalt en logisk modell), som transformerer informasjon om den binære avhengige variabelen til en ubegrenset kontinuerlig variabel og anslår en vanlig multivariat modell.

Den Wald og sannsynligheten-ratio test blir anvendt for å teste resultatenes statistiske signifikans av hver koeffisient b i modellen (som er analog med de t-tester som anvendes i OLS regresjon, se ovenfor). En test som vurderer egnetheten til en klassifiseringsmodell er "prosentandelen riktig forutsagt".

Probit regresjon

Probit -modeller tilbyr et alternativ til logistisk regresjon for modellering av kategorisk avhengige variabler.

Multinomial logistisk regresjon

En forlengelse av den binære logit -modellen til tilfeller der den avhengige variabelen har mer enn 2 kategorier, er den multinomielle logit -modellen . I slike tilfeller er det kanskje ikke fornuftig å kollapse dataene i to kategorier eller føre til tap av dataens rikdom. Multinomial logit -modellen er den riktige teknikken i disse tilfellene, spesielt når de avhengige variabelkategoriene ikke er ordnet (for eksempel farger som rød, blå, grønn). Noen forfattere har utvidet multinomial regresjon til å inkludere funksjonsvalg/viktighetsmetoder som tilfeldig multinomial logit .

Logit kontra probit

De to regresjonene har en tendens til å oppføre seg på samme måte, bortsett fra at den logistiske fordelingen har en tendens til å være litt flatere hale. Koeffisientene oppnådd fra logit- og probit -modellen er vanligvis tett sammen. Imidlertid er oddsforholdet lettere å tolke i logit -modellen.

Praktiske årsaker til å velge probit -modellen fremfor den logistiske modellen kan omfatte:

  • Det er en sterk tro på at den underliggende fordelingen er normal
  • Den faktiske hendelsen er ikke et binært utfall ( f.eks . Konkursstatus), men en andel ( f.eks . Andel av befolkningen på forskjellige gjeldsnivåer).

Tidsseriemodeller

Tidsseriemodeller brukes til å forutsi eller forutsi variabelenes fremtidige oppførsel. Disse modellene forklarer det faktum at datapunkter tatt over tid kan ha en intern struktur (for eksempel autokorrelasjon, trend eller sesongvariasjon) som det bør tas hensyn til. Som et resultat kan ikke standard regresjonsteknikker brukes på tidsseriedata og metodikk er utviklet for å dekomponere trendens, sesongmessige og sykliske komponent i serien.

Tidsseriemodeller anslår forskjellligninger som inneholder stokastiske komponenter. To vanlige former for disse modellene er autoregressive modeller (AR) og glidende gjennomsnitt (MA) -modeller. De Box-Jenkins Metoden kombinerer AR og MA modeller for å produsere den ARMA (autoregressive glidende gjennomsnitt) modell, som er hjørnestenen i stasjonær tidsserieanalyse. ARIMA (autoregressive integrerte glidende gjennomsnittsmodeller) brukes derimot til å beskrive ikke-stasjonære tidsserier.

De siste årene har tidsseriemodeller blitt mer sofistikerte og forsøkt å modellere betinget heteroskedastisitet. Slike modeller inkluderer ARCH -modellen ( autoregressiv betinget heteroskedastisitet ) og GARCH -modellen (generalisert autoregressiv betinget heteroskedastisitet), begge ofte brukt for økonomiske tidsserier.

Overlevelses- eller varighetsanalyse

Overlevelsesanalyse er et annet navn for analyse av tid til hendelse. Disse teknikkene ble først og fremst utviklet innen medisinsk og biologisk vitenskap, men de er også mye brukt i samfunnsvitenskap som økonomi, så vel som ingeniørfag.

Sensurering og ikke-normalitet, som er karakteristisk for overlevelsesdata, genererer vanskeligheter når man prøver å analysere dataene ved hjelp av konvensjonelle statistiske modeller som multiple lineær regresjon . Den normalfordeling , som er en symmetrisk fordeling, tar positive så vel som negative verdier, men varigheten av sin natur ikke kan være negativ, og derfor kan ikke antas normalitet ved håndtering av varighet / overlevelsesdata.

Varighet modeller kan være parametrisk, ikke-parametrisk eller semi-parametrisk. Noen av modellene som vanligvis brukes er Kaplan-Meier og Cox proporsjonal faremodell (ikke parametrisk).

Klassifisering og regresjonstrær (CART)

Klassifiserings- og regresjonstrær (CART) er en ikke-parametrisk avgjørelsesteknikk for læring av tre som produserer enten klassifisering eller regresjonstrær, avhengig av om den avhengige variabelen er henholdsvis kategorisk eller numerisk.

Beslutningstrær dannes av en samling regler basert på variabler i modelldatasettet:

  • Regler basert på variablers verdier velges for å få den beste splittelsen for å differensiere observasjoner basert på den avhengige variabelen
  • Når en regel er valgt og deler en node i to, brukes den samme prosessen på hver "barn" -node (dvs. det er en rekursiv prosedyre)
  • Splitting stopper når CART oppdager at det ikke kan oppnås ytterligere gevinst, eller noen forhåndsinnstilte stoppregler er oppfylt. (Alternativt blir dataene delt så mye som mulig, og deretter beskjæres treet .)

Hver gren av treet ender i en terminalnode. Hver observasjon faller inn i en og nøyaktig en terminalnode, og hver terminalnode er unikt definert av et sett med regler.

En veldig populær metode for prediktiv analyse er tilfeldige skoger .

Multivariat adaptiv regresjonsspline

Multivariat adaptiv regresjonssplines (MARS) er en ikke-parametrisk teknikk som bygger fleksible modeller ved å tilpasse stykkvis lineære regresjoner .

Multivariabel og adaptiv regresjon spline tilnærming bevisst overfits modellen og deretter poder for å få til den optimale modell. Algoritmen er beregningsmessig veldig intensiv, og i praksis er en øvre grense for antall basisfunksjoner spesifisert.

Maskinlæringsteknikker

Maskinlæring inkluderer en rekke avanserte statistiske metoder for regresjon og klassifisering, og finner anvendelse på en lang rekke områder, inkludert medisinsk diagnostikk , oppdagelse av kredittkortbedrageri , ansikts- og talegjenkjenning og analyse av aksjemarkedet .

Verktøy

Historisk sett krever bruk av prediktive analyseverktøy - i tillegg til å forstå resultatene de leverte - avanserte ferdigheter. Moderne verktøy for prediktiv analyse er imidlertid ikke lenger begrenset til IT -spesialister. Etter hvert som flere organisasjoner bruker prediktiv analyse i beslutningsprosesser og integrerer den i driften, skaper de et skifte i markedet mot forretningsbrukere som hovedforbrukere av informasjonen. Forretningsbrukere vil ha verktøy de kan bruke på egen hånd. Leverandører svarer ved å lage ny programvare som fjerner den matematiske kompleksiteten, gir brukervennlige grafiske grensesnitt og/eller bygger på snarveier som for eksempel kan gjenkjenne hva slags data som er tilgjengelig og foreslå en passende prediktiv modell. Prediktive analyseverktøy har blitt sofistikerte nok til tilstrekkelig å presentere og dissekere dataproblemer, slik at enhver datakunnig informasjonsarbeider kan bruke dem til å analysere data og hente meningsfulle og nyttige resultater. For eksempel presenterer moderne verktøy funn ved hjelp av enkle diagrammer, grafer og poengsummer som indikerer sannsynligheten for mulige utfall.

Det er mange verktøy tilgjengelig på markedet som hjelper med utførelse av prediktiv analyse. Disse spenner fra de som trenger svært lite brukerøkonomi til de som er designet for eksperten. Forskjellen mellom disse verktøyene er ofte i nivået for tilpasning og tillatte tunge løft av data.

PMML

Den Predictive Model Markup Language (PMML) ble foreslått for standard språk for å uttrykke prediktive modeller. Et slikt XML-basert språk gir de forskjellige verktøyene en måte å definere prediktive modeller på og dele dem. PMML 4.0 ble utgitt i juni 2009.

Kritikk

Det er mange skeptikere når det gjelder datamaskiners og algoritmes evner til å forutsi fremtiden, inkludert Gary King , professor fra Harvard University og direktør for Institute for Quantitative Social Science. Mennesker påvirkes av miljøet på utallige måter. Å forutsi perfekt hva folk vil gjøre videre krever at alle de innflytelsesrike variablene blir kjent og målt nøyaktig. "Folks miljø endrer seg enda raskere enn de selv gjør. Alt fra været til forholdet til moren kan endre måten folk tenker og handler på. Alle disse variablene er uforutsigbare. Hvordan de vil påvirke en person er enda mindre forutsigbar. Hvis satt i nøyaktig samme situasjon i morgen, kan de ta en helt annen beslutning. Dette betyr at en statistisk prediksjon bare er gyldig under sterile laboratorieforhold, som plutselig ikke er så nyttig som det virket før. "

I en studie av 1072 artikler publisert i Information Systems Research og MIS Quarterly mellom 1990 og 2006, prøvde bare 52 empiriske artikler prediktive påstander, hvorav bare 7 utførte ordentlig prediktiv modellering eller testing.

Se også

Referanser

Videre lesning

  • Agresti, Alan (2002). Kategorisk dataanalyse . Hoboken: John Wiley og sønner. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. , og Schutzer, Daniel, "Intelligent Security Systems", i Freedman, Roy S., Flein, Robert A., og Lederman, Jess, Editors (1995). Kunstig intelligens på kapitalmarkedene . Chicago: Irwin. ISBN 1-55738-811-3.CS1 -vedlikehold: flere navn: forfatterliste ( lenke )
  • L. Devroye; L. Györfi; G. Lugosi (1996). En sannsynlighetsteori om mønstergjenkjenning . New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Applied Time Series Econometics . Hoboken: John Wiley og sønner. ISBN 0-521-83919-X.
  • Greene, William (2012). Økonometrisk analyse, 7. utg . London: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Rik språkanalyse for terrorbekjempelse . Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Maskinlæring . New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Predictive Analytics: Kraften til å forutsi hvem som klikker, kjøper, lyver eller dør . John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Utforskende dataanalyse . New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Predictive Analytics, Data Mining og Big Data. Myter, misforståelser og metoder . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: Forstå de vitale tegnene på virksomheten din . Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.