woensdag, december 20, 2006

Datavisualisatie met excel


fractalmaps.jpg

Excel is in de BI-wereld not done. Excel functioneert vaak als schaduwsysteem naast de officiele rapportages, spreadsheets zijn organisatiebreed slecht te beheren en voor compliance is het een ramp, omdat de cijfers makkelijk zijn te manipuleren en moeilijk zijn te controleren.

Maar vertel dat maar eens aan data-analisten. Zeker als er voor excel 2007 zulke mooie plugins gebouwd gaan worden als Fractaledge heeft gedaan. Fractalmaps is een adembenemend mooi datavisualisatie tool.

De meest innovatieve pure BI-players volgens Google Patents


metadata.jpg

Hoe innovatief zijn de pure BI players? Dat kun je nu aardig meten met google patentsearch. Ik heb de grootste spelers van het BI veld gegoogeld:

  1. Microstrategy: 44 patenten

  2. Cognos: 16 patenten

  3. Hyperion: 12 patenten

  4. Business Objects: 7 patenten (inclusief 1 van acta)


Zegt dit nu iets? Dat weet ik eigenlijk niet. Bedrijven zullen innovatieve patenten gebruiken die niet op hun naam staan. Sommige patenten lijken onnozel: bv 'een userinterface for a computerscreen'. En waarschijnljk staan er patenten op naam van bedrijven die zijn overgenomen. Andere patenten zijn misschien al weer achterhaald. Kortom, beetje nutteloze excercitie. Het is wel aardig om door de tekeningen van de patenten te browsen, als je echt niets te doen hebt.

dinsdag, december 19, 2006

Predictive data mining werkt niet

Althans niet als middel om aanslagen van terroristen te voorkomen. Simpelweg omdat de voorspellingen uit predictive data mining niet accuraat genoeg zijn om de 'bad guys' aan te wijzen. Dit beweren Jeff Jonas en Jim Harper in hun paper: 'effective counterterrorism and the limited role of predictive data mining'. In het stuk staan tegelijkertijd ook een aantal goede voorbeelden van de voordelen van datamining voor direct marketing. Hieronder kort door de bocht de 2 redenen waarom predictive data mining niet werkt voor contra-terrorisme:

Predictive data mining verbetert de repons van een marketingactie over het algemeen maar met enkele procenten, maar dat is genoeg om de kosten van direct marketing te reduceren en het aantal klachten van consumenten te verminderen (vanwege minder ongewenste aanbiedingen). Desondanks is het percentage fout-positieven van een gedataminede marketingactie, over het algemeen meer dan 90%. Voor een terrorisme onderzoek is dat percentage onacceptabel vanwege het aantal onschuldige verdachten wat moet worden onderzocht.

Predictive data mining zoekt naar patronen in klantdata om het gedrag van klanten te voorspellen. Daartoe moeten datamining tools getrained worden met substantiele datasets van klanten zodat zinvolle patronen ontstaan waarmee het gedrag van klanten is te voorspellen. Je traint die data voor een bepaald doel bv fraudedetectie of op de kans dat ze een bepaald product zullen gaan kopen. Het probleem met terroristen is dat het doel van hun activiteiten onvoorspelbaar is en dat er te weinig (historische gegevens over) terroristische activiteiten zijn om zinvolle patronen te ontdekken. Iets dergelijks beweerde ik ook in een post uit 2003 met als kanttekening dat het beleid van Bush het probleem van het gebrek aan terroristische data vanzelf zou oplossen.

Predictive datamining werkt dus niet. Wat volgens Jonas en harper wel zou werken is: gegevens verzamelen over verdachte personen en die met elkaar in verband brengen. Hun voorbeeld van de aanslagen van 9/11 maakt pijnlijk zichtbaar hoe relatief eenvoudig de beschikbare gegevens van de verschillende terroristen met elkaar gerelateerd hadden kunnen worden. Deze case, tezamen met de bezwaren tegen predictive data mining, laat, wat mij betreft, zien dat grootschalige data mining activiteiten van overheden niet nodig zijn om aanslagen van bad guys te voorkomen.

maandag, december 18, 2006

Het mooiste dashboard

De glorieuze winnaars van Gartner's Corporate Performance management suite 2006 zijn Hyperion en Cognos. Zo'n suite bestaat volgens Gartner uit de volgende componenten:

  • Budget, planning and forecasting

  • Profitability modelling and optimization

  • Financial consolidation

  • Statutory and financial reporting

  • Dashboard applications


En over die dashboards wil ik het even hebben. Zijn die dashboards van Hyperion en Cognos ook het mooiste wat er op de markt te vinden is? Toegegeven, het is niet het allerbelangrijkste criterium, Grtner scoort erook niet op, maar als manager moet je wel iedere dag tegen zo'n ding aankijken. Ik heb screenshots genomen van scorecards die bij Hyperion en bij Cognos op de site staan.

Hier de scorecard van Cognos (klik op de het plaatje):

scorecard cognos.jpg

En hier de scorecard van hyperion (klik op de het plaatje):

scorecard hyperion.jpg

Vooral hyperion's scorecard is nogal rommelig. Overigens geldt dat ook voor veel andere scorecards uit de CPM oplossingen in Gartner's magic quadrant. Stephen Few heeft een aantal regels voor het ontwerpen van goede dashboards. Het bedrijf visual engineering heeft die regels verwerkt in zijn scorecard oplossing. En dit is het resultaat (klik op de het plaatje):

scorecard visualacuity.jpg

De trendlijn is uitgevonden door Tufte en wordt een sparkline genoemd. Die andere grafiek is ontworpen door Few. Dit is zgn. bulletgraphs. Over de bulletgraph verschillen de meningen: Ze zijn nl. niet heel intuïtief. Maar toch is dit de mooiste scorecard die ik tot nu toe ben tegengekomen.

maandag, december 11, 2006

Voor datafreaks: Swivel

1020867

Dé oplossing voor data-analisten die nu eindelijk wel eens verrassende verbanden in hun data willen vinden: Swivel. Swivel is een web 2.0 site waar je gegevenssets met elkaar deelt, vergelijkt, becommentarieert en tagt. Wat swivel bijzonder/bizar maakt is dat je alle beschikbare gegevens tegen elkaar kunt afzetten.
Laad een gegevensset op en Swivel komt automatisch terug met verbanden die je in je wildste fantasieen niet had kunnen verzinnen. En misschien dat deze site wel gaat bewijzen dat alles met alles samenhangt, als er tenminste niet al te veel valse gegevens worden geupload.

Klantkennis oogsten op het web

advise.jpg

Informatie over klanten wordt nu hoofdzakelijk verzamelt uit interne bronnen. Dat geeft maar een beperkt beeld van zo'n klant en daarom worden vaak externe bestanden gekocht om die klantinformatie te verrijken. Maar meer en meer klanten hebben ook veel informatie open en bloot op het web staan. Die klanten hebben een weblog of hebben commentaar geleverd op weblogs, consumentensites, nieuwsgroepen etc.

Wat let bedrijven om die informatie te oogsten met speciale webspiders en zo interesses, vrienden, kennissen en familie in kaart te brengen om zo 'het aanbod beter af te stemmen op de klant'? Beetje op de manier zoals spammers nu emails harvesten, maar dan ingewikkelder om slimme relaties te leggen tussen al die brokjes ongestructureerde informatie die we overal op het web achterlaten.

Het grootste beletsel is de techniek, die is nog niet zover, maar komt er wel aan. Sterker nog de Amerikaanse overheid heeft een 47 miljoen dollar kostend prototype van zo'n systeem onder het mom van terrorismebestrijding. Het systeem, ADVISE, (Analysis, Dissemination, Visualization, Insight and Semantic Enhancement) genaamd, gaat nog verder omdat het ook gebruik maakt van niet openbare bronnen.

Volgens een rapport van het Amerikaans sciencemonitor doet ADVISE het volgende:
"It would collect a vast array of corporate and public online information - from financial records to CNN news stories - and cross-reference it against US intelligence and law-enforcement records. The system would then store it as 'entities' - linked data about people, places, things, organizations, and events,.."

Sourcewatch heeft een compleet dossier over ADVISE. Er is ook een presentatie over hoe ADVISE zal werken. Technisch best interessant, moet ik bekennen, en ik ben benieuwd hoe lang het duurt voordat er commerciële varianten op de markt verschijnen. Qua privacy is 'customer harvesting' natuurlijk een ramp en voor zover ik weet is dit niet goed geregeld in de WBP.

donderdag, december 07, 2006

Mooie dashboards ontwerpen


poster_OrigMinard.gif

Juice analytics heeft 1, 2 posts over een videopresentatie van Seth Godin waarin hij de beroemde Napoleon-grafiek, volgens Tufte de beste ooit gemaakt, afkraakt.

De essentie van zijn kritiek is dat je de grafiek 15 minuten moet bestuderen voordat je door hebt wat er staat. 'Goed' is volgens Godin afhankelijk van de context. In de context van het bedrijfsleven is het één van de slechtse grafieken ooit gemaakt, want daar moet een grafiek in een paar seconden duidelijk maken wat ermee bedoeld wordt.

Wat een goede grafiek in het bedrijfsleven is, is door de dashboard-hype een hot item. Hieronder een aantal sites waar hierover info te vinden is.

zondag, december 03, 2006

Gartner's magic quadrant voor Data Integratie Tools

Bij SAS staat het magisch quadrant van Gartner voor 'Data Integration Tools 2006' online, omdat ze bij de oh zo belangrijke visionairies zijn ingedeeld. IBM en Informatica staan trouwens eenzaam aan kop in het leaders/visionairies quadrant.

Opvallend lijkt, de toch wel lage waardering van Oracle Warehouse Builder, met name zo interessant omdat het gratis wordt meegeleverd met de database van Oracle.

Gartner deelt OWB laag in omdat OWB nog geen mogelijkheid heeft om niet-oracledatabases te ontsluiten en dat het product vooral bedoeld is (en ingezet wordt) voor klassiek ETL; de visionairies kunnen breder worden ingezet omdat die messagingmogelijkheden hebben.

In het magische kwadrant ontbreken de open source ETL tools en dat zijn er tegenwoordig nogal wat. Managebility heeft alle op java gebaseerde open source ETL-tools op een rijtje.