zondag, december 28, 2008

Boek: The Numerati



Een criterium voor een goed nonfictie boek is als je na het lezen de wereld (een beetje) anders gaat bekijken. The Numerati van Stephen Baker is zo'n boek.

Numerati zijn personen die via algoritmes op zoek zijn naar patronen in data die het menselijk leven en gedrag beschrijven. Dat klinkt wat vaag, maar aan de hand van 5 rollen maakt hij feilloos duidelijk dat de machines die de Numerati bouwen steeds meer zinnige dingen kunnen beweren over ons gedrag. Die rollen zijn: de werker, de shopper, de stemmer, de blogger, de terrorist, de patiƫnt en de lover.

Ik zal er een paar heel kort (het blijft een blog) uitlichten.

In 'de werker' beschrijft hij hoe IBM zijn 50.000 werknemers via wiskundige modellen de productiviteit wil verbeteren en het management wil automatiseren.

In 'de stemmer' lees je dat Obama niet alleen vanwege zijn charisma de verkiezingen heeft gewonnen.

In 'de terrorist' wordt duidelijk waarom datamining niet zal werken als middel om terrorisme te voorkomen. Dat zegt ook wat over de realiteitszin van het boek omdat onlangs ook een rapport is verschenen waarin staat dat de anti terroristische datamining programma's van Homeland security niet werken .

En in 'de patient' blijkt dat Intel met sensortechnologie een grote rol wil gaan spelen in de gezondheidszorg. Let maar eens op de nieuwsberichten van Intel.

Het boek is fascinerend vanwege de mogelijkheden die deze algoritmes bieden en tegelijkertijd een waarschuwing tegen het vastleggen van persoonlijke gegevens. Zo voert Baker Jeff Jonas op. Hij is een bekeerd numerator die zijn virtuele privacy frankenstein heeft verkocht aan IBM. Daar is hij nu hoofd entity analysis en ontwikkelt hij nu vooral methoden om persoons- en gedragsgegevens anoniem op te slaan.

Baker is ook een blog gestart over the numerati. Fortune heeft het boek gekozen in zijn top 3 van beste webboeken van 2008.

woensdag, december 10, 2008

rss als annotatie-hulpmiddel in rapportages



Ik ben een groot fan van de grafieken van Google insights for search en finance. Zie bv hoe Google de beurskoers van mijn favoriete aandeel Netezza integreert met belangrijke gebeurtenissen. Dat is toch weer fraai gedaan door de interface ontwerpers van Google.

Ik vroeg me af of het ook mogelijk is zelf dergelijke rapportages te bouwen.
Zo zou je je kunnen voorstellen dat de marketeers van een krant willen weten welke nieuwsfeiten van invloed zijn op de losse verkoop.

Die nieuwsfeiten zijn als rss-feed opvraagbaar en die moet je op een of andere manier verwerken als annotaties bij de verkoopcijfers. Nog beter zou het zijn als je uit Google Analytics als rss-feed de best bekeken artikelen zou kunnen opvragen, om te zien welk nieuwsfeit die dag belangrijk was. Helaas is dat laatste nog niet mogelijk.

Overigens kun je ook heel gemakkelijk bedrijfsinterne nieuwsfeiten vastleggen in de vorm van een weblog, waarin je vastlegt wanneer bv het bronsysteem is gemigreerd. De rss-feed van dat weblog verklaart dan weer de trendbreuk in die ene grafiek.

Google spreadsheets heeft de mogelijkheid om annotaties te maken in de vorm van interactieve time series gadget van Google. Het is ook vrij gemakkelijk een rss-feed met relevant nieuws in google spreadsheets te importeren. Maar voor de koppeling van rapportdata met rss-feeds op basis van datum of onderwerp heeft Google geen kant en klare oplossing.

Ook bij Business Intelligence leveranciers kon ik nog geen commercieel rijpe oplossingen vinden. In het lab van Business Objects staan wel 2 proefopstellingen:

Rss-feed as a universe ontsluit een rss-feed via een Universe waardoor deze gegevens schijnbaar te combineren zijn met andere gegevens.
BI Annotator is een tool voor BOXI en combineert de ongestructureerde text uit een rss-feed met bv de dimensionele data uit een sterschema. Het wordt niet helemaal duidelijk of de tijdsdimensie hierbij een rol speelt.

Eigenlijk moet je de rss-feeds met de andere data integreren in het datawarehouse en moet je dit niet willen oplossen met een BI-tool. Hoe je dit in het dwh moet modelleren is een vraagstuk op zich bv als aparte rss-dimensies of als onderdeel van een andere dimensie of als aparte ster met nieuwsfeiten. Misschien dat ik daar nog wat blogjes aan ga wijden.

Integratie van rss-feeds in rapportages is dus volgens mij met de huidige BI-tools nog niet mogelijk. Misschien dat iemand anders nog wel een oplossing heeft gevonden?