Posts tonen met het label data mining. Alle posts tonen
Posts tonen met het label data mining. Alle posts tonen

zondag, december 28, 2008

Boek: The Numerati



Een criterium voor een goed nonfictie boek is als je na het lezen de wereld (een beetje) anders gaat bekijken. The Numerati van Stephen Baker is zo'n boek.

Numerati zijn personen die via algoritmes op zoek zijn naar patronen in data die het menselijk leven en gedrag beschrijven. Dat klinkt wat vaag, maar aan de hand van 5 rollen maakt hij feilloos duidelijk dat de machines die de Numerati bouwen steeds meer zinnige dingen kunnen beweren over ons gedrag. Die rollen zijn: de werker, de shopper, de stemmer, de blogger, de terrorist, de patiënt en de lover.

Ik zal er een paar heel kort (het blijft een blog) uitlichten.

In 'de werker' beschrijft hij hoe IBM zijn 50.000 werknemers via wiskundige modellen de productiviteit wil verbeteren en het management wil automatiseren.

In 'de stemmer' lees je dat Obama niet alleen vanwege zijn charisma de verkiezingen heeft gewonnen.

In 'de terrorist' wordt duidelijk waarom datamining niet zal werken als middel om terrorisme te voorkomen. Dat zegt ook wat over de realiteitszin van het boek omdat onlangs ook een rapport is verschenen waarin staat dat de anti terroristische datamining programma's van Homeland security niet werken .

En in 'de patient' blijkt dat Intel met sensortechnologie een grote rol wil gaan spelen in de gezondheidszorg. Let maar eens op de nieuwsberichten van Intel.

Het boek is fascinerend vanwege de mogelijkheden die deze algoritmes bieden en tegelijkertijd een waarschuwing tegen het vastleggen van persoonlijke gegevens. Zo voert Baker Jeff Jonas op. Hij is een bekeerd numerator die zijn virtuele privacy frankenstein heeft verkocht aan IBM. Daar is hij nu hoofd entity analysis en ontwikkelt hij nu vooral methoden om persoons- en gedragsgegevens anoniem op te slaan.

Baker is ook een blog gestart over the numerati. Fortune heeft het boek gekozen in zijn top 3 van beste webboeken van 2008.

dinsdag, januari 09, 2007

Introductie in Datamining

data_mining.jpgDatamining lijkt onder de naam predictive analytics een comeback te maken. Ik denk onder meer omdat de datamining tools niet meer zo onbetaalbaar zijn, waardoor data mining binnen het bereik is gekomen van de niet-multinationals.

Het is dus tijd om als niet-expert wat dieper in de data mining algoritmes te duiken. Er zijn op het web tientallen introducties in data mining te vinden. Hier is mijn selectie:

dinsdag, december 19, 2006

Predictive data mining werkt niet

Althans niet als middel om aanslagen van terroristen te voorkomen. Simpelweg omdat de voorspellingen uit predictive data mining niet accuraat genoeg zijn om de 'bad guys' aan te wijzen. Dit beweren Jeff Jonas en Jim Harper in hun paper: 'effective counterterrorism and the limited role of predictive data mining'. In het stuk staan tegelijkertijd ook een aantal goede voorbeelden van de voordelen van datamining voor direct marketing. Hieronder kort door de bocht de 2 redenen waarom predictive data mining niet werkt voor contra-terrorisme:

Predictive data mining verbetert de repons van een marketingactie over het algemeen maar met enkele procenten, maar dat is genoeg om de kosten van direct marketing te reduceren en het aantal klachten van consumenten te verminderen (vanwege minder ongewenste aanbiedingen). Desondanks is het percentage fout-positieven van een gedataminede marketingactie, over het algemeen meer dan 90%. Voor een terrorisme onderzoek is dat percentage onacceptabel vanwege het aantal onschuldige verdachten wat moet worden onderzocht.

Predictive data mining zoekt naar patronen in klantdata om het gedrag van klanten te voorspellen. Daartoe moeten datamining tools getrained worden met substantiele datasets van klanten zodat zinvolle patronen ontstaan waarmee het gedrag van klanten is te voorspellen. Je traint die data voor een bepaald doel bv fraudedetectie of op de kans dat ze een bepaald product zullen gaan kopen. Het probleem met terroristen is dat het doel van hun activiteiten onvoorspelbaar is en dat er te weinig (historische gegevens over) terroristische activiteiten zijn om zinvolle patronen te ontdekken. Iets dergelijks beweerde ik ook in een post uit 2003 met als kanttekening dat het beleid van Bush het probleem van het gebrek aan terroristische data vanzelf zou oplossen.

Predictive datamining werkt dus niet. Wat volgens Jonas en harper wel zou werken is: gegevens verzamelen over verdachte personen en die met elkaar in verband brengen. Hun voorbeeld van de aanslagen van 9/11 maakt pijnlijk zichtbaar hoe relatief eenvoudig de beschikbare gegevens van de verschillende terroristen met elkaar gerelateerd hadden kunnen worden. Deze case, tezamen met de bezwaren tegen predictive data mining, laat, wat mij betreft, zien dat grootschalige data mining activiteiten van overheden niet nodig zijn om aanslagen van bad guys te voorkomen.

maandag, december 11, 2006

Voor datafreaks: Swivel

1020867

Dé oplossing voor data-analisten die nu eindelijk wel eens verrassende verbanden in hun data willen vinden: Swivel. Swivel is een web 2.0 site waar je gegevenssets met elkaar deelt, vergelijkt, becommentarieert en tagt. Wat swivel bijzonder/bizar maakt is dat je alle beschikbare gegevens tegen elkaar kunt afzetten.
Laad een gegevensset op en Swivel komt automatisch terug met verbanden die je in je wildste fantasieen niet had kunnen verzinnen. En misschien dat deze site wel gaat bewijzen dat alles met alles samenhangt, als er tenminste niet al te veel valse gegevens worden geupload.

Klantkennis oogsten op het web

advise.jpg

Informatie over klanten wordt nu hoofdzakelijk verzamelt uit interne bronnen. Dat geeft maar een beperkt beeld van zo'n klant en daarom worden vaak externe bestanden gekocht om die klantinformatie te verrijken. Maar meer en meer klanten hebben ook veel informatie open en bloot op het web staan. Die klanten hebben een weblog of hebben commentaar geleverd op weblogs, consumentensites, nieuwsgroepen etc.

Wat let bedrijven om die informatie te oogsten met speciale webspiders en zo interesses, vrienden, kennissen en familie in kaart te brengen om zo 'het aanbod beter af te stemmen op de klant'? Beetje op de manier zoals spammers nu emails harvesten, maar dan ingewikkelder om slimme relaties te leggen tussen al die brokjes ongestructureerde informatie die we overal op het web achterlaten.

Het grootste beletsel is de techniek, die is nog niet zover, maar komt er wel aan. Sterker nog de Amerikaanse overheid heeft een 47 miljoen dollar kostend prototype van zo'n systeem onder het mom van terrorismebestrijding. Het systeem, ADVISE, (Analysis, Dissemination, Visualization, Insight and Semantic Enhancement) genaamd, gaat nog verder omdat het ook gebruik maakt van niet openbare bronnen.

Volgens een rapport van het Amerikaans sciencemonitor doet ADVISE het volgende:
"It would collect a vast array of corporate and public online information - from financial records to CNN news stories - and cross-reference it against US intelligence and law-enforcement records. The system would then store it as 'entities' - linked data about people, places, things, organizations, and events,.."

Sourcewatch heeft een compleet dossier over ADVISE. Er is ook een presentatie over hoe ADVISE zal werken. Technisch best interessant, moet ik bekennen, en ik ben benieuwd hoe lang het duurt voordat er commerciële varianten op de markt verschijnen. Qua privacy is 'customer harvesting' natuurlijk een ramp en voor zover ik weet is dit niet goed geregeld in de WBP.