dinsdag, december 19, 2006

Predictive data mining werkt niet

Althans niet als middel om aanslagen van terroristen te voorkomen. Simpelweg omdat de voorspellingen uit predictive data mining niet accuraat genoeg zijn om de 'bad guys' aan te wijzen. Dit beweren Jeff Jonas en Jim Harper in hun paper: 'effective counterterrorism and the limited role of predictive data mining'. In het stuk staan tegelijkertijd ook een aantal goede voorbeelden van de voordelen van datamining voor direct marketing. Hieronder kort door de bocht de 2 redenen waarom predictive data mining niet werkt voor contra-terrorisme:

Predictive data mining verbetert de repons van een marketingactie over het algemeen maar met enkele procenten, maar dat is genoeg om de kosten van direct marketing te reduceren en het aantal klachten van consumenten te verminderen (vanwege minder ongewenste aanbiedingen). Desondanks is het percentage fout-positieven van een gedataminede marketingactie, over het algemeen meer dan 90%. Voor een terrorisme onderzoek is dat percentage onacceptabel vanwege het aantal onschuldige verdachten wat moet worden onderzocht.

Predictive data mining zoekt naar patronen in klantdata om het gedrag van klanten te voorspellen. Daartoe moeten datamining tools getrained worden met substantiele datasets van klanten zodat zinvolle patronen ontstaan waarmee het gedrag van klanten is te voorspellen. Je traint die data voor een bepaald doel bv fraudedetectie of op de kans dat ze een bepaald product zullen gaan kopen. Het probleem met terroristen is dat het doel van hun activiteiten onvoorspelbaar is en dat er te weinig (historische gegevens over) terroristische activiteiten zijn om zinvolle patronen te ontdekken. Iets dergelijks beweerde ik ook in een post uit 2003 met als kanttekening dat het beleid van Bush het probleem van het gebrek aan terroristische data vanzelf zou oplossen.

Predictive datamining werkt dus niet. Wat volgens Jonas en harper wel zou werken is: gegevens verzamelen over verdachte personen en die met elkaar in verband brengen. Hun voorbeeld van de aanslagen van 9/11 maakt pijnlijk zichtbaar hoe relatief eenvoudig de beschikbare gegevens van de verschillende terroristen met elkaar gerelateerd hadden kunnen worden. Deze case, tezamen met de bezwaren tegen predictive data mining, laat, wat mij betreft, zien dat grootschalige data mining activiteiten van overheden niet nodig zijn om aanslagen van bad guys te voorkomen.

Geen opmerkingen:

Een reactie posten