Profilering (informasjonsvitenskap) - Profiling (information science)

I informasjonsvitenskap , profilering refererer til prosessen med bygging og påføring av brukerprofiler som genereres av datastyrt dataanalyse .

Dette er bruk av algoritmer eller andre matematiske teknikker som tillater oppdagelse av mønstre eller korrelasjoner i store datamengder, samlet i databaser . Når disse mønstrene eller korrelasjonene brukes til å identifisere eller representere mennesker, kan de kalles profiler . Annet enn en diskusjon om profilering teknologier eller befolkningen profilering , er forestillingen om profilering i denne forstand ikke bare om bygging av profiler, men også gjelder søknad fra gruppeprofiler til enkeltpersoner, e. g., i tilfeller av kredittvurdering , prisdiskriminering eller identifisering av sikkerhetsrisiko ( Hildebrandt & Gutwirth 2008 ) ( Elmer 2004 ).

Profilering brukes i svindelforebygging , miljøintelligens og forbrukeranalyse . Statistiske metoder for profilering inkluderer Knowledge Discovery in Databases (KDD).

Profileringsprosessen

Den tekniske prosessen med profilering kan skilles i flere trinn:

Foreløpig forankring: Profileringsprosessen starter med en spesifikasjon av det aktuelle problemdomenet og identifisering av analysemålene.
Datainsamling : Måldatasettet eller databasen for analyse dannes ved å velge relevante data i lys av eksisterende domenekunnskap og dataforståelse.
Dataforberedelse : Dataene er forhåndsbehandlet for å fjerne støy og redusere kompleksitet ved å eliminere attributter.
Data mining : Dataene analyseres med algoritmen eller heuristikken som er utviklet for å passe data, modell og mål.
Tolkning: De utvinnede mønstrene evalueres på deres relevans og gyldighet av spesialister og/eller fagfolk i applikasjonsdomenet (f.eks. Unntatt falske korrelasjoner).
Søknad: De konstruerte profilene brukes, f.eks. På kategorier av personer, for å teste og finjustere algoritmene.
Institusjonell beslutning: Institusjonen bestemmer hvilke handlinger eller retningslinjer som skal gjelde for grupper eller enkeltpersoner hvis data samsvarer med en relevant profil.

Datainsamling, forberedelse og gruvedrift tilhører alle fasen der profilen er under bygging. Imidlertid refererer profilering også til anvendelse av profiler, noe som betyr bruk av profiler for identifisering eller kategorisering av grupper eller individuelle personer. Som det kan sees i trinn seks (søknad), er prosessen sirkulær. Det er en tilbakemeldingssløyfe mellom konstruksjonen og anvendelsen av profiler. Tolkningen av profiler kan føre til gjentagelse-muligens sanntid-av finjustering av spesifikke tidligere trinn i profileringsprosessen. Anvendelsen av profiler på personer hvis data ikke ble brukt til å konstruere profilen, er basert på data matching, som gir nye data som gir mulighet for ytterligere justeringer. Prosessen med profilering er både dynamisk og adaptiv. En god illustrasjon av profileringens dynamiske og adaptive karakter er Cross-Industry Standard Process for Data Mining ( CRISP-DM ).

Typer profilering

For å tydeliggjøre karakteren til profileringsteknologier, må det gjøres noen avgjørende forskjeller mellom forskjellige typer profileringsteknikker, bortsett fra skillet mellom konstruksjon og anvendelse av profiler. Hovedforskjellene er mellom profilering nedenfra og opp og ned (eller overvåket og uten tilsyn), og mellom individuelle og gruppeprofiler.

Overvåket og uten tilsyn læring

Profiler kan klassifiseres i henhold til måten de er generert på ( Fayyad, Piatetsky-Shapiro & Smyth 1996 ) ( Zarsky & 2002-3 ) . På den ene siden kan profiler genereres ved å teste en hypotetisert korrelasjon. Dette kalles top-down profilering eller veiledet læring . Dette ligner på metodikken for tradisjonell vitenskapelig forskning ved at den starter med en hypotese og består av å teste dens gyldighet. Resultatet av denne typen profilering er verifisering eller tilbakevisning av hypotesen. Man kan også snakke om deduktiv profilering. På den annen side kan profiler genereres ved å utforske en database, ved hjelp av dataminingprosessen for å oppdage mønstre i databasen som ikke tidligere var hypotetisert. På en måte handler dette om å generere hypotese: å finne sammenhenger man ikke hadde forventet eller til og med tenkt på. Når mønstrene er blitt utvunnet, vil de gå inn i løkken - beskrevet ovenfor - og vil bli testet med bruk av nye data. Dette kalles læring uten tilsyn .

To ting er viktige med hensyn til dette skillet. For det første ser det ut til at læringsalgoritmer uten tilsyn tillater konstruksjon av en ny type kunnskap, ikke basert på hypotese utviklet av en forsker og ikke basert på årsakssammenhenger eller motivasjonsrelasjoner, men utelukkende basert på stokastiske korrelasjoner. For det andre ser det ut til at ikke -tilsynte læringsalgoritmer gir rom for en induktiv type kunnskapskonstruksjon som ikke krever teoretisk begrunnelse eller årsaksforklaring ( Custers 2004 ).

Noen forfattere hevder at hvis anvendelsen av profiler basert på datastyrt stokastisk mønstergjenkjenning 'fungerer', dvs. gir mulighet for pålitelige spådommer om fremtidig atferd, spiller den teoretiske eller kausale forklaringen på disse mønstrene ingen rolle lenger ( Anderson 2008 ). Ideen om at 'blinde' algoritmer gir pålitelig informasjon, betyr imidlertid ikke at informasjonen er nøytral. I prosessen med å samle og samle data i en database (de tre første trinnene i prosessen med profilkonstruksjon), oversettes det fra virkelige hendelser til maskinlesbare data . Disse dataene blir deretter utarbeidet og renset for å gi mulighet for første beregning. Potensiell skjevhet må lokaliseres på disse punktene, så vel som i valg av algoritmer som utvikles. Det er ikke mulig å gruve en database for alle mulige lineære og ikke-lineære korrelasjoner, noe som betyr at de matematiske teknikkene som er utviklet for å søke etter mønstre vil være avgjørende for mønstrene som kan bli funnet. Når det gjelder maskinprofilering, blir potensiell skjevhet ikke informert av fordommer fra sunn fornuft eller det psykologer kaller stereotyping, men av datateknikkene som brukes i de første trinnene i prosessen. Disse teknikkene er stort sett usynlige for de som det brukes profiler på (fordi dataene deres samsvarer med de relevante gruppeprofilene).

Individuelle og gruppeprofiler

Profiler må også klassifiseres i henhold til typen emne de refererer til. Dette emnet kan enten være et individ eller en gruppe mennesker. Når en profil er konstruert med dataene til en enkelt person, kalles dette individuell profilering ( Jaquet-Chiffelle 2008 ). Denne typen profilering brukes til å oppdage de spesifikke egenskapene til et bestemt individ, for å muliggjøre unik identifikasjon eller levering av personlige tjenester. Imidlertid er personlig service oftest også basert på gruppeprofilering, som tillater kategorisering av en person som en bestemt type person, basert på det faktum at profilen hennes samsvarer med en profil som er konstruert på grunnlag av enorme mengder data om massivt antall andre mennesker. En gruppeprofil kan referere til resultatet av data mining i datasett som refererer til et eksisterende samfunn som anser seg selv som sådan, som en religiøs gruppe, en tennisklubb, et universitet, et politisk parti etc. I så fall kan det beskrive tidligere ukjente atferdsmønstre eller andre kjennetegn ved en slik gruppe (fellesskap). En gruppeprofil kan også referere til en kategori mennesker som ikke danner et fellesskap, men som er funnet å dele tidligere ukjente atferdsmønstre eller andre egenskaper ( Custers 2004 ). I så fall beskriver gruppeprofilen spesifikk atferd eller andre egenskaper ved en kategori mennesker, som for eksempel kvinner med blå øyne og rødt hår, eller voksne med relativt korte armer og ben. Disse kategoriene kan ha sammenheng med helserisiko, inntektsevne, dødelighet, kredittrisiko, etc.

Hvis en individuell profil brukes på personen som den ble utvunnet fra, er det direkte individuell profilering. Hvis en gruppeprofil brukes på en person hvis data samsvarer med profilen, er det indirekte individuell profilering, fordi profilen ble generert ved hjelp av data fra andre mennesker. Tilsvarende, hvis en gruppeprofil brukes på gruppen den ble utvunnet fra, er det direkte gruppeprofilering ( Jaquet-Chiffelle 2008 ). Imidlertid, for så vidt som anvendelsen av en gruppeprofil på en gruppe innebærer anvendelse av gruppeprofilen på individuelle medlemmer av gruppen, er det fornuftig å snakke om indirekte gruppeprofilering, spesielt hvis gruppeprofilen er ikke-distributiv.

Distribuerende og ikke-distribuerende profilering

Gruppeprofiler kan også deles når det gjelder deres distribusjonskarakter ( Vedder 1999 ). En gruppeprofil er distribuerende når dens egenskaper gjelder likt for alle medlemmene i gruppen: alle ungkarer er ugift, eller alle personer med et spesifikt gen har 80% sjanse for å pådra seg en bestemt sykdom. En profil er ikke-distribuerende når profilen ikke nødvendigvis gjelder for alle medlemmene i gruppen: gruppen av personer med et spesifikt postnummer har en gjennomsnittlig opptjeningsevne på XX, eller kategorien personer med blå øyne har en gjennomsnittlig sjanse 37% for å få en bestemt sykdom. Vær oppmerksom på at i dette tilfellet vil en persons mulighet til å ha en bestemt inntektsevne eller å pådra seg den spesifikke sykdommen avhenge av andre faktorer, for eksempel kjønn, alder, foreldrenes bakgrunn, tidligere helse, utdanning. Det burde være åpenbart at bortsett fra tautologiske profiler som for bachelor, er de fleste gruppeprofiler generert ved hjelp av datateknikker ikke-distribuerende. Dette har vidtrekkende implikasjoner for nøyaktigheten av indirekte individuell profilering basert på datatilpasning med ikke-distribuerende gruppeprofiler. Helt bortsett fra at anvendelsen av nøyaktige profiler kan være urettferdig eller forårsake unødig stigmatisering, vil de fleste gruppeprofiler ikke være nøyaktige.

applikasjoner

I finanssektoren bruker institusjoner profileringsteknologi for å forhindre svindel og kredittscoring . Banker ønsker å minimere risikoen ved å gi kreditt til kundene sine. På grunnlag av den omfattende gruppen tildeles profileringskunder en viss poengsumverdi som indikerer deres kredittverdighet. Finansinstitusjoner som banker og forsikringsselskaper bruker også gruppeprofilering for å oppdage svindel eller hvitvasking av penger . Databaser med transaksjoner blir søkt med algoritmer for å finne atferd som avviker fra standarden, noe som indikerer potensielt mistenkelige transaksjoner.

I ansettelsessammenheng kan profiler være nyttige for å spore ansatte ved å overvåke deres atferd på nettet , for å oppdage svindel fra dem og for å distribuere menneskelige ressurser ved å samle og rangere deres ferdigheter. ( Leopold & Meints 2008 )

Profilering kan også brukes til å støtte mennesker på jobb, og også for læring, ved å gripe inn i utformingen av adaptive hypermediasystemer som tilpasser samspillet. Dette kan for eksempel være nyttig for å støtte håndtering av oppmerksomhet ( Nabeth 2008 ).

I rettsmedisin eksisterer muligheten for å koble forskjellige databaser av saker og mistenkte og utvinne disse for vanlige mønstre. Dette kan brukes til å løse eksisterende saker eller for å etablere risikoprofiler for potensielle mistenkte ( Geradts & Sommer 2008 ) ( Harcourt 2006 ).

Forbrukerprofilering

Forbrukerprofilering er en form for kundeanalyse , der kundedata brukes til å ta avgjørelser om produktkampanje , prising av produkter, samt personlig annonsering . Når målet er å finne det mest lønnsomme kundesegmentet, bygger forbrukeranalyse på demografiske data , data om forbrukeratferd , data om produktene som er kjøpt, betalingsmetode og undersøkelser for å etablere forbrukerprofiler. For å etablere prediktive modeller på grunnlag av eksisterende databaser , brukes statistisk metode Knowledge Discovery in Databases (KDD). KDD grupperer lignende kundedata for å forutsi fremtidig forbrukeratferd. Andre metoder for å forutsi forbrukeratferd er korrelasjon og mønstergjenkjenning . Forbrukerprofiler beskriver kunder basert på et sett med attributter, og vanligvis er forbrukerne gruppert etter inntekt , levestandard , alder og beliggenhet. Forbrukerprofiler kan også inneholde atferdsattributter som vurderer en kundes motivasjon i kjøperens beslutningsprosess . Velkjente eksempler på forbrukerprofiler er Experian 's Mosaic geodemographic klassifisering av husholdninger, CACI ' s Acorn , og Acxiom 's Personicx.

Omgivende intelligens

I et bygd miljø med omgivelsesintelligens har hverdagsobjekter innebygde sensorer og innebygde systemer som lar gjenstander gjenkjenne og svare på enkeltpersoners tilstedeværelse og behov. Ambient intelligens er avhengig av automatisert profilering og interaksjon mellom mennesker og datamaskiner . Sensorer overvåker en persons handlinger og atferd, og genererer, samler, analyserer, behandler og lagrer derfor personlige data . Tidlige eksempler på forbrukerelektronikk med omgivende intelligens inkluderer mobilapper , augmented reality og lokasjonsbasert tjeneste .

Risikoer og problemer

Profileringsteknologier har reist en rekke etiske, juridiske og andre spørsmål, inkludert personvern , likhet , rettferdig behandling , sikkerhet og ansvar . Mange forfattere har advart mot å betale for en ny teknologisk infrastruktur som kan dukke opp på grunnlag av semi-autonome profileringsteknologier ( Lessig 2006 ) ( Solove 2004 ) ( Schwartz 2000 ).

Personvern er et av hovedspørsmålene som tas opp. Profileringsteknologier muliggjør en vidtrekkende overvåking av individets oppførsel og preferanser. Profiler kan avsløre personlig eller privat informasjon om enkeltpersoner som de kanskje ikke engang er klar over selv ( Hildebrandt & Gutwirth 2008 ).

Profileringsteknologier er i sin natur diskriminerende verktøy. De tillater enestående former for sosial sortering og segmentering som kan ha urettferdige effekter. Personer som er profilert må kanskje betale høyere priser, de kan gå glipp av viktige tilbud eller muligheter, og de kan ha økt risiko fordi det er mindre lønnsomt å dekke behovene deres ( Lyon 2003 ). I de fleste tilfeller vil de ikke være klar over dette, siden profileringspraksiser stort sett er usynlige og profilene selv ofte er beskyttet av intellektuell eiendom eller forretningshemmelighet. Dette utgjør en trussel mot likheten og solidariteten til innbyggerne. I større skala kan det føre til segmentering av samfunnet.

Et av problemene som ligger til grunn for potensielle brudd på personvernet og ikke-diskriminering er at prosessen med profilering oftere enn ikke er usynlig for de som blir profilert. Dette skaper vanskeligheter ved at det blir vanskelig, om ikke umulig, å bestride anvendelsen av en bestemt gruppeprofil. Dette forstyrrer prinsippene for forsvarlig prosess: hvis en person ikke har tilgang til informasjon på grunnlag av hvilken de blir tilbakeholdt fordeler eller tilskrives visse risikoer, kan de ikke bestride måten de blir behandlet på ( Steinbock 2005 ).

Profiler kan brukes mot mennesker når de havner i hendene på mennesker som ikke har rett til å få tilgang til eller bruke informasjonen. Et viktig spørsmål knyttet til disse bruddene på sikkerhet er identitetstyveri .

Når påføring av profiler forårsaker skade, må ansvaret for denne skaden bestemmes hvem som skal holdes ansvarlig. Skal programvareprogrammereren, tjenesteleverandøren for profileringen eller den profilerte brukeren holdes ansvarlig? Dette ansvarsspørsmålet er spesielt komplekst i tilfelle applikasjonen og beslutninger om profiler også har blitt automatisert som i Autonomic Computing eller ambient intelligence -beslutninger om automatiserte beslutninger basert på profilering.

Se også

Referanser

Anderson, Chris (2008). "The End of Theory: The Data Deluge gjør den vitenskapelige metoden foreldet" . Kablet magasin . 16 (7).
Custers, BHM (2004). "Kunnskapens makt". Tilburg: Wolf Legal Publishers. Cite journal krever |journal=( hjelp )
Elmer, G. (2004). "Profilering av maskiner. Kartlegging av personopplysningsøkonomien". MIT Press. Cite journal krever |journal=( hjelp )
Fayyad, UM; Piatetsky-Shapiro, G .; Smyth, P. (1996). "Fra datautvinning til kunnskapsoppdagelse i databaser" (PDF) . AI Magazine . 17 (3): 37–54. Arkivert fra originalen (PDF) 2009-12-16 . Hentet 2009-02-09 .
Geradts, Zeno; Sommer, Peter (2008). "D6.7c: Rettsmedisinsk profilering" (PDF) . FIDIS leveranser . 6 (7c).
Harcourt, BE (2006). "Mot spådom. Profilering, politiarbeid og straffing i en aktuarmessig tidsalder". University of Chicago Press, Chicago og London. Cite journal krever |journal=( hjelp )
Hildebrandt, Mireille; Gutwirth, Serge (2008). Profilering av den europeiske statsborgeren. Tverrfaglige perspektiver . Springer, Dordrecht. doi : 10.1007/978-1-4020-6914-7 . ISBN 978-1-4020-6913-0.
Jaquet-Chiffelle, David-Olivier (2008). "Svar: Direkte og indirekte profilering i lys av virtuelle personer. Til: Definere profilering: En ny type kunnskap?". I Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilering av den europeiske statsborgeren . Springer Nederland. s. 17–45. doi : 10.1007/978-1-4020-6914-7_2 .
Kephart, JO; Chess, DM (2003). "Visjonen om autonom databehandling" (PDF) . Datamaskin . 36 (1. januar): 96–104. CiteSeerX 10.1.1.70.613 . doi : 10.1109/MC.2003.1160055 . Arkivert fra originalen (PDF) 2014-08-10.
Leopold, N .; Meints, M. (2008). "Profilering i arbeidssituasjoner (svindel)". I Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilering av den europeiske statsborgeren . Springer Nederland. s. 217–237. doi : 10.1007/978-1-4020-6914-7_12 .
Lessig, L. (2006). "Kode 2.0". Basic Books, New York. Cite journal krever |journal=( hjelp )
Lyon, D. (2003). "Overvåking som sosial sortering: personvern, risiko og digital diskriminering". Routledge. Cite journal krever |journal=( hjelp )
Nabeth, Thierry (2008). "Brukerprofilering for oppmerksomhetsstøtte for skole og arbeid". I Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilering av den europeiske statsborgeren . Springer Nederland. s. 185–200. doi : 10.1007/978-1-4020-6914-7_10 .
Schwartz, P. (2000). "Utover Lessigs kode for Internett-personvern: Cyberspace-filtre, personvernkontroll og rettferdig informasjonspraksis". Wisconsin Law Review . 743 : 743–788.
Solove, DJ (2004). Den digitale personen. Teknologi og personvern i informasjonsalderen . New York, New York University Press.
Steinbock, D. (2005). "Datamatching, datautvinning og rettferdig prosess". Georgia Law Review . 40 (1): 1–84.
Vedder, A. (1999). "KDD: Utfordringen til individualisme". Etikk og informasjonsteknologi . 1 (4): 275–281. doi : 10.1023/A: 1010016102284 . S2CID 10377988 .
Weiser, M. (1991). "Datamaskinen for det tjueførste århundre". Vitenskapelig amerikansk . 265 (3): 94–104. doi : 10.1038/scientificamerican0991-94 .
Zarsky, T. (2002). " " Mine din egen virksomhet! ": Gjør sak for implikasjonene av datautvinning eller personlig informasjon i Forum of Public Opinion". Yale Journal of Law and Technology . 5 (4): 17–47.

Notater og andre referanser

Languages

In other projects