zondag, december 28, 2008

Boek: The Numerati



Een criterium voor een goed nonfictie boek is als je na het lezen de wereld (een beetje) anders gaat bekijken. The Numerati van Stephen Baker is zo'n boek.

Numerati zijn personen die via algoritmes op zoek zijn naar patronen in data die het menselijk leven en gedrag beschrijven. Dat klinkt wat vaag, maar aan de hand van 5 rollen maakt hij feilloos duidelijk dat de machines die de Numerati bouwen steeds meer zinnige dingen kunnen beweren over ons gedrag. Die rollen zijn: de werker, de shopper, de stemmer, de blogger, de terrorist, de patiënt en de lover.

Ik zal er een paar heel kort (het blijft een blog) uitlichten.

In 'de werker' beschrijft hij hoe IBM zijn 50.000 werknemers via wiskundige modellen de productiviteit wil verbeteren en het management wil automatiseren.

In 'de stemmer' lees je dat Obama niet alleen vanwege zijn charisma de verkiezingen heeft gewonnen.

In 'de terrorist' wordt duidelijk waarom datamining niet zal werken als middel om terrorisme te voorkomen. Dat zegt ook wat over de realiteitszin van het boek omdat onlangs ook een rapport is verschenen waarin staat dat de anti terroristische datamining programma's van Homeland security niet werken .

En in 'de patient' blijkt dat Intel met sensortechnologie een grote rol wil gaan spelen in de gezondheidszorg. Let maar eens op de nieuwsberichten van Intel.

Het boek is fascinerend vanwege de mogelijkheden die deze algoritmes bieden en tegelijkertijd een waarschuwing tegen het vastleggen van persoonlijke gegevens. Zo voert Baker Jeff Jonas op. Hij is een bekeerd numerator die zijn virtuele privacy frankenstein heeft verkocht aan IBM. Daar is hij nu hoofd entity analysis en ontwikkelt hij nu vooral methoden om persoons- en gedragsgegevens anoniem op te slaan.

Baker is ook een blog gestart over the numerati. Fortune heeft het boek gekozen in zijn top 3 van beste webboeken van 2008.

woensdag, december 10, 2008

rss als annotatie-hulpmiddel in rapportages



Ik ben een groot fan van de grafieken van Google insights for search en finance. Zie bv hoe Google de beurskoers van mijn favoriete aandeel Netezza integreert met belangrijke gebeurtenissen. Dat is toch weer fraai gedaan door de interface ontwerpers van Google.

Ik vroeg me af of het ook mogelijk is zelf dergelijke rapportages te bouwen.
Zo zou je je kunnen voorstellen dat de marketeers van een krant willen weten welke nieuwsfeiten van invloed zijn op de losse verkoop.

Die nieuwsfeiten zijn als rss-feed opvraagbaar en die moet je op een of andere manier verwerken als annotaties bij de verkoopcijfers. Nog beter zou het zijn als je uit Google Analytics als rss-feed de best bekeken artikelen zou kunnen opvragen, om te zien welk nieuwsfeit die dag belangrijk was. Helaas is dat laatste nog niet mogelijk.

Overigens kun je ook heel gemakkelijk bedrijfsinterne nieuwsfeiten vastleggen in de vorm van een weblog, waarin je vastlegt wanneer bv het bronsysteem is gemigreerd. De rss-feed van dat weblog verklaart dan weer de trendbreuk in die ene grafiek.

Google spreadsheets heeft de mogelijkheid om annotaties te maken in de vorm van interactieve time series gadget van Google. Het is ook vrij gemakkelijk een rss-feed met relevant nieuws in google spreadsheets te importeren. Maar voor de koppeling van rapportdata met rss-feeds op basis van datum of onderwerp heeft Google geen kant en klare oplossing.

Ook bij Business Intelligence leveranciers kon ik nog geen commercieel rijpe oplossingen vinden. In het lab van Business Objects staan wel 2 proefopstellingen:

Rss-feed as a universe ontsluit een rss-feed via een Universe waardoor deze gegevens schijnbaar te combineren zijn met andere gegevens.
BI Annotator is een tool voor BOXI en combineert de ongestructureerde text uit een rss-feed met bv de dimensionele data uit een sterschema. Het wordt niet helemaal duidelijk of de tijdsdimensie hierbij een rol speelt.

Eigenlijk moet je de rss-feeds met de andere data integreren in het datawarehouse en moet je dit niet willen oplossen met een BI-tool. Hoe je dit in het dwh moet modelleren is een vraagstuk op zich bv als aparte rss-dimensies of als onderdeel van een andere dimensie of als aparte ster met nieuwsfeiten. Misschien dat ik daar nog wat blogjes aan ga wijden.

Integratie van rss-feeds in rapportages is dus volgens mij met de huidige BI-tools nog niet mogelijk. Misschien dat iemand anders nog wel een oplossing heeft gevonden?

maandag, oktober 06, 2008

Timerime en andere interactieve tijdlijnen






Dankzij de jongens van Timerime, kun je ook zo'n prachtige interactieve tijdlijn bouwen die Google gebruikt om zijn 10-jarige geschiedenis te visualiseren.

De Timerime website is een social media site voor historische gegevens waar communityleden informatie op een tijdlijn creëren, delen, publiceren en vergelijken. Frankwatching heeft een interview met de Nederlandse bedenkers. Ik heb me laten vertellen dat er voor timerime ook veel belangstelling is uit de educatieve hoek. daar kan ik me iets bij voorstellen. Ik heb zelf een world history poster. Een interactieve versie in timerime zou het gevaarte een stuk handelbaarder maken.

Business Objects heeft in zijn labs ook een interactieve tijdlijn met veel visueel geweld, de timewall, als onderdeel van vizserver. Als je zelf iets overzichterlijker tijdlijnen wilt bouwen of wilt demo-en dan kan dat ook met de timeline gadget voor Google spreadsheets. Dit is weer een spinoff van het open source simile timeline project van het MIT. Kijk ook eens naar de andere voorbeelden van simile.

maandag, september 15, 2008

wordle visualisaties


Via wordle genereer je van del.icio.us tags, vrije tekst of weblogs de prachtigste tagclouds. Mooiere tagclouds ben ik nog niet tegengekomen. Hier zie je de del.icio.us tags van databikkel en zie je aan de grootte van de woorden wat me bezighoudt.

maandag, september 08, 2008

Google Charts (api)

Dit is een blog in een serie waarin ik probeer te ontdekken of Google geschikt is als BI-platform. Ik heb ze gelabeld als Gbi (Google bi).

Een van de minder bekende api's van Google is de Google Chart api. Door simpelweg een url te maken met een aantal parameters, zoals type, kleur en labels en daarbij de waarden op te geven, tover je een statische grafiek in .png formaat in de browser. Hiermee kun je verrassend mooie en veelzijdige grafieken maken die zeker niet onderdoen voor de grafiekmogelijkheden van dure rapportagetools.

De vraag is nu of je met Google Charts een Google business intelligence oplossing zou kunnen bouwen. Ik stel me daarbij voor dat je Igoogle wilt gebruiken als platform om rapporten te tonen.

Met Google Graphs blijkt dat ronduit lastig te zijn. De resultaten van een query moet je via handgecodeerde scripts omzetten in de gewenste attributen met de bijbehorende resultaatsets. Voor de gemiddelde BI-er een stap te ver. Daarnaast zijn de grafieken statisch: tooltips en een drillthrough zijn niet mogelijk. Wat in dit geval ontbreekt is een laag die de resultaten van een query eenvoudig omzet naar een grafiek (met een tabel). En dan laat ik het afschermen van de sql in een semantische laag even buiten beschouwing. Via een lelijke hack met de google gadgets api kun je de plaatjes alsnog in iGoogle tonen.

Maar als je je niet laat intimideren door code zijn er met deze api hele mooie grafieken te maken die het best tot hun recht komen in een mashup. Zie bv de combinatie van twitterstatistieken met yahoo pipes en google charts en de andere voorbeelden op programmableweb.

Kortom een normale bi-er zal van Google Graphs niet blij worden. Gelukkig zijn er alternatieven zoals de visualization api, maar daarover in een volgende post meer.

Mocht je toch nieuwsgierig zijn geworden: Er zijn verschillende graph generatoren, waaronder het fraaie hohli, om te spelen met de verschillende grafieken.

donderdag, september 04, 2008

Google olap met pivot tables



Panorama, het bedrijf dat met de bouw van sql server olap services een revolutie veroorzaakte in de business intelligence wereld is terug met een nieuw revolutionair BI tool: Powerapps.

Powerapps is initieel ontwikkeld voor analytische oplossingen voor Google Apps, maar het is de bedoeling dat de tool generieker ingezet gaat worden in een a Software as a Service model.

Een gratis versie is beschikbaar als panorama pivot table in Google spreadsheets. Er zijn natuurlijk een aantal beperkingen. Zo kan het spreadsheet van Google maar 10.000 rijen aan en mag het 500k groot zijn. Dit is dus geen optie voor enterprise data oplossingen.


23 september ia er een webinar van panorama en het google apps team
over de bi-oplossingen voor google apps. Waar wellicht wat meer duidelijk wordt over de mogelijkheden en toekomstige ontwikkelingen.

Ik krijg 'm met mijn data niet aan de praat zodat ik geen voorbeeldsheet kan sharen, maar hier een tutorial video over hoe het zou moeten werken:

woensdag, augustus 27, 2008

Trendanalyzer in iGoogle



Een jaar geleden berichtte ik dat Google Trendanalyzer, een tool van Gapminder waarmee schitterende visualisaties zijn te maken, had gekocht. Google heeft het als gadget/plugin (de naam wisselt nog regelmatig) onder de naam Motion Chart beschikbaar gemaakt en niet zoals ik trachtte te voorspellen als standalone presentatie app.

Hier zie je de Motion Chart in actie in een voorbeeld van Google zelf. (Ik heb nog gezocht naar leuke datasets op swivel en many eyes, maar daar kon ik niet zo veel mee.)

Naast Motion Chart zijn er nog een aantal andere fraaie visualisaties van Google en andere partijen zoals gauges en heatmaps. Want Google stelt ook derden via de visualization api in de gelegenheid om gadgets te maken voor spreadsheets.

Het mooie van die gadgets in Google spreadsheets is dat je ze kunt tonen in iGoogle. Op deze manier kun je heel simpel, eenvoudige dashboards bouwen. In de komende posts zal ik wat verder ingaan op de mogelijkheden om Google in te zetten als Business Intelligence tool.

dinsdag, augustus 26, 2008

Grarafieken


Om mijn roestige schrijfspinsels na een jaar zonder bloggen weer wat los te krijgen eerst maar eens wat ongein.

Zo zag ik dat Sipke een kanaal op flickr had gevonden waar je songs die zijn uitgedrukt in een grafiek, kunt raden. Grarafieken, bedacht ik spontaan. Leuk woord ook voor grafieken die niemand snapt

Nog meer kantoorhunor vind je bij graphjam. Goed, het haalt niet het nivo van the IT crowd of Dilbert maar er staan zeker erg grappige grafieken bij. Goed genoeg voor een slechte grap bij presentatie van de maandrapportages.

zondag, augustus 24, 2008

Een doorstart van databikkel

Zo, ik ben er even een jaar tussenuit geweest. Het was te hectisch om veel tijd aan bloggen te kunnen besteden. Ik ben namelijk zo verstandig geweest om de drie meest stressvolle dingen in het leven van een westerse man tegelijk te doen:

Ik ben verhuisd, heb mijn baan opgezegd en ben voor mezelf begonnen en ik ben de gelukkige vader van een nu al weer 1 jarig meisje.

Nu mijn leventje weer wat stabieler is, begint ook het bloggen weer te kriebelen. Ik zie zo veel leuke dingen passeren in mijn rssreader en in mijn nieuwe zakelijke leven als directeur van Besselse Business Intelligence & Datamanagement die ik te graag wil delen.