dinsdag, november 28, 2006

Worldmapper

wwf.jpgWorldmapper is een collectie wereldkaarten waar de grootte van een land wordt bepaald door het onderwerp, bv het aantal geboortes in een land of bv de uitstoot van kooldioxide. Er zijn iets van 25 categorieën die elk weer een aantal kaarten over een bepaald ondewerp bevatten.

Naast het feit dat ik die weergave wel heel goed vind - in 1 opslag zie je wat er aan de hand is - zijn veel van de onderwerpen 'urgent'. Kijk bv maar eens naar de kaart van de 'human footprint' (pdf) die speciaal gemaakt is voor het wwf.

Maar voor zoiets ordinairs als een kaartje van postcodegebieden zou deze weergave ook uitstekend werken.

maandag, november 27, 2006

Veel BI in Top 30 IT trends 2007

CIO Insight heeft, obv enquetes onder cio's en cto's, een top 30 samengesteld met de belangrijkste IT-trends voor 2007. En niet geheel verwonderlijk, speelt BI daar een belangrijke rol in.

In de categorie strategie staat op de 5e plaats: "Companies put their mounds of data to work". Het blijkt dat bedrijven zo'n 43% van de gegenereerde klantdata verzamelen en analyseren. 52% van de business users klaagt erover dat ze niet de informatie krijgen die ze nodig hebben.

In de categorie technologie staat "dataquality demands attention" op de 3e plaats. Maar 4% van de ondervraagden beschouwt de interne, externe en gestructureerde en ongestructureerde data als 'uitstekend'.

Op de 7e plaats in de categorie technologie staat: "for business Intelligence, the best has yet to come". BI blijkt in meer IT budgetten voor te komen dan elk ander it-initiatief.

zondag, november 26, 2006

Gapminder: lol met statistieken

gapfinder.jpg"Begrijp de wereld door lol te hebben met statistieken", is het motto van Gapminder, een non-profit bedrijf dat de ontwikkeling van de mensheid visualiseert. Op TED, een jaarlijkse conferentie met 'thought-leaders', heeft een van de oprichters, Hans Rosling een prachtige presentatie gegeven met gapminder. De lol van gapfinder zit vooral in het feit dat je de grafieken door de tijd heen ziet veranderen. Het heeft veel weg van excelsius en spotfire.

Het ultieme doel van gapminder is om via internet alle saaie dure en complexe statistische gegevens van de VN, NGO's en nationale onderzoeken, op een leuke en begrijpelijke manier beschikbaar te maken, het liefst via Google. En dat is al redelijk gelukt want via de subscribed links van google zijn de resultaten al op te vragen. En via Google tools kun je met de grafieken van gapminder spelen.

dinsdag, november 21, 2006

Open source business intelligence overzicht

pentaho.jpg Pentaho is de eerste open source Business Intelligence suite (1,5 miljoen downloads) dat serieus zou kunnen concurreren met commerciele BI-leveranciers. Pentaho is een bi-platform met rapportage, analyse, dashboarding,workflow en datamining mogelijkheden.

En bij pentaho alleen zal het niet blijven. Er zijn nu al zo'n 25 open source projecten voor Business Intelligence tools. De open source bi pagina van squidoo biedt een uitstekend overzicht. Een paar kansrijke suites en olap tools pik ik er hier uit:

  • Het BEE-project is een tjechisch project met etl, rolap en rapportagemogelijkheden, met mysql als onderliggende database.

  • Open-i is een olap rapportage omgeving dat draait op Mondrian of Microsoft Analysis services. Het project was finalist voor de sourceforge community choice awards.

  • SpagoBi is een italiaans project en een compleet platform met datamining, rapportage, olap, dashboards en datamanagement oplossingen.

  • Palo, is een addin voor Excel. Aan Excel wordt een MOLAP-database toegevoegd waardoor je een hoeveelheid data gelijk aan 1000-en excelsheets in één excelsheet kunt bewerken die ook nog eens meer mogelijheden biedt.

maandag, november 20, 2006

Oracle Open World BI presentaties


oraclebi.jpg



De presentaties van het Oracle open world forum 2006 staan online. Oracle heeft daar nogal belangrijke aankondigen gedaan over haar BI-strategie. Hieronder staan een aantal presentaties over Business Intelligence die ook zonder bijbehorende commentaar interessant zijn (username=cboracle password=oraclec6):

Er staan nog veel meer presentaties en cases van het oracle open world forum. En 28 november is Bi City, een eendaags seminar van Oracle, waar je ongetwijfeld bijgepraat gaat worden over deze onderwerpen.

Eén versie van de waarheid

Eén van de argumenten voor een data warehouse is, dat het voor een organisatie één versie van de waarheid oplevert . Als data manager met een postmodernistische inslag moet ik daar altijd een beetje om gniffelen.

Op een basaal niveau klopt dat argument ook wel. Er gaat altijd veel tijd zitten in het verklaren van verschillen in rapporten over hetzelfde onderwerp die afkomstig zijn uit verschillende bronnen en/of van verschillende afdelingen. Een data warehouse kan, als managers de cijfers van het data warehouse eenmaal accepteren als de waarheid, veel tijd besparen.

Maar zelfs dan, levert de interpretatie van die cijfers of het benadrukken van bepaalde cijfers weer een veelheid van waarheden op waar managers weer overeenstemming over moet bereiken. Een aardig voorbeeld stond afgelopen week in de kranten. Dit waren de conclusies van de verschillende kranten nav een en hetzelfde onderzoek van Rutgers Nisso:

dinsdag, november 14, 2006

BO gaat 2.0

home_collaborator.gifInformation week heeft een artikel over de nieuwe features van Business Objects. Nu geloof ik dat meestal wel, maar deze zijn écht leuk en bijna web 2.0-achtig.

Via het ook al nieuwe BO labs waar je nieuwe features kunt testen zijn ze te downloaden (nu de beheerders nog even lief aankijken):

Een revolutie in meten

socialmed.jpg"We zijn getuige van een revolutie in het meten", vertelde Jon Kleinberg, een professor in social media analyses, op '2016', een symposium over de ontwikkelingen in computer science. Wat is dan die revolutie?
"The new social-and-technology networks that can be studied include e-mail patterns, buying recommendations on commercial Web sites like Amazon, messages and postings on community sites like MySpace and Facebook, and the diffusion of news, opinions, fads, urban myths, products and services over the Internet. Why do some online communities thrive, while others decline and perish? What forces or characteristics determine success? Can they be captured in a computing algorithm?"

Dit is ook een van de onderzoeksonderwerpen van het web science research initiative, waarvan Tim Berners Lee een van de oprichters is. Het initiatief is breder van opzet en zal de sociale en technologische gevolgen van de opkomst van het web onderzoeken:
"The Web Science Research Initiative (WSRI) will generate a research agenda for understanding the scientific, technical and social challenges underlying the growth of the Web. Of particular interest is the volume of information on the Web that documents more and more aspects of human activity and knowledge. WSRI research projects will weigh such questions as, how do we access information and assess its reliability? By what means may we assure its use complies with social and legal rules? How will we preserve the Web over time?"

Waarom ik dit blog? Ik zie allerlei nieuwsoortige analyses ontstaan die ongetwijfeld een spinoff krijgen naar BI-achtige toepassingen en web analyses.

maandag, november 13, 2006

Conclusies van het DWH & BI Congres 2006

Omdat ik me niet te veel tijd heb voor een compleet verslag, zet ik hier de, voor mij, belangrijkste conclusies van het DWH & BI congres 2006 op een rij:

  • Masterdatamanagement is metadata++. Als we metadata nooit in de vingers hebben gekregen waarom masterdata dan wel? (van der Lans)

  • Masterdatamanagement is voor 70% politiek en voor 30% tools. (Buytendyk)

  • Voor technische metadata zijn er genoeg oplossingen, maar er is geen enkel bedrijf in de wereld dat ook business metadata goed geimplementeerd heeft in het data warehouse. (Inmon)

  • Een datawarehouse is geen technisch lapmiddel. Het is nodig voor compliance & ontkoppeling. Ontkoppeling wil zeggen: een plek waar gegevens op een bepaald moment bevroren zijn in de tijd. (Buytendyk)

  • Ondanks het feit dat de hardware de afgelopen tijd beter en dus sneller is geworden en ondanks het feit dat de hoeveelheden data niet zijn toegenomen, wordt bij de Business Intelligence tools meer geklaagd over response. Dat kan komen omdat men gewend is geraakt om binnen een halve secode response te krijgen op een zoekopdracht van Google. (Pendse)

  • Dimensionele modellen zijn niet geschikt voor het meten van Kritische Performance Indicatoren omdat KPI's een hierarchische relatie hebben. (Habers)

  • Alleen een sterschema is voor databasemarketeers niet genoeg. Databasemarketing vereist complexe aggregaties en gekantelde meetwaarden (meetwaarden opgenomen in dimensies) (Habers)

  • Appliances als Netezza vereenvoudigen de ontwikkeling en het beheer van een data warehouse omdat performancetuning zoals indexering en partitionering niet meer nodig zijn (Habers)

  • Er zijn maar 2 producten in de wereld waarmee veranderingen in data(structuren) goed te modelleren zijn: Kalido en BIReady. (Inmon)

  • 64 bits gaat een revolutie ontketenen in BI-land (bv In memory kubussen worden daardoor mogelijk). (Lamoo)

  • De BI-markt is nog niet volwassen. Vanuit aanpalende gebieden komen er nog steeds nieuwe toepassingen. (Van der Linden)

  • De markt is nog niet verdeeld tussen de grote spelers. Nog steeds komen er nieuwe en innovatieve BI-tools bij. (Van der Linden)

vrijdag, november 10, 2006

Ongestructureerde business intelligence

mesh.jpg

Bill Inmon heeft in zijn getrademarkete en gecoprightete term DW 2.0 (die dobbel joe toe dot zero) een ruime plaats ingeruimd voor het ontsluiten van ongestructureerde data in het data warehouse. En Business Objects heeft het open search initiative gelanceerd, een samenwerkingsverband voor text analytics en enterprise search.

BI & data warehousing gaan dus duidelijk een nieuwe fase waarin zoeken in ongestructureerde data een belangrijke rol gaat spelen.

Search is bijna een synoniem voor Google. Om je te laten zien dat er meer is dan google heb ik een quickscan gemaakt van een aantal innovatieve zoekmachines die door nieuwswebsites worden gebruikt (ik werk nu eenmaal bij een mediabedrijf), maar ook als interne zoekmachine kunnen worden ingezet.

  • De BBC maakt gebruik van Autonomy. Volgens Gartner het beste wat er is op dataretrieval. Alle gerelateerde artikelen en video's bij een artikel op de BBC nieuwssite, worden gegenereerd door deze zoekmachine. Daar komt - bijna - geen journalist en metadata aan te pas. Autonomy maakt nl ook volautomatisch transcripts van video en audio. Die techniek wordt geleverd door Virage. Virage zie je in actie bij Blinkx, een uitgeklede consumentenversie van autonomy.


dinsdag, november 07, 2006

Terrorisme score voor reizigers

spring2_5f180.jpg27B stroke 6 en de electronic frontier foundation hebben posts over het nieuwe terrorisme scoresysteem van Homeland Security. Het 'automated target system' gebruikt data, afkomstig van luchtvaartmaatschappijen, het I-94 formulier en andere databronnen voor het bepalen van je terrorismerisico zodra je de grens met de Verenigde Staten oversteekt.

De data zoals medische conditie, frequent flier nummer, speciale voedsel verzoeken, huis- en emailadres, betalingsinformatie en de naam van het reisbureau zal 40 jaar worden vastgehouden en kan ook met buitenlandse overheden worden gedeeld. Het plaatje hierboven zegt genoeg.


Concurreren op analyses

peterson.jpgIn de jaren 90 tijdens de hausse van ERP-implemenaties, heb ik me regelmatig afgevraagd waarmee bedrijven nog concurrentievoordeel via IT zouden kunnen behalen als bedrijven de primaire processen via ERP min of meer op dezelfde manier zouden hebben gestandaardiseerd. Dat zou alleen kunnen op de wijze waarop zij hun informatie zouden gebruiken.

Bij het toenmalige BSO/Origin hebben we toen een SIG opgericht die zich dan ook bezighield met het verkrijgen van managementinformatie uit SAP en Baan.

Tom H. Davenport heeft pas een artikel gepubliceerd waaruit blijkt dat er inderdaad nu een aantal bedrijven zijn waar data-analyse een essentiele concurrerende factor is geworden.

Voorbeelden van die bedrijven zijn Amazon, Capital One, P&G. Maar ook een footballteam als de New England Patriots, die de superbowl 4 jaar op een rij heeft gewonnen, maakt binnen en buiten het veld intensief gebruik van data en analytische modellen. Statistiek bepaalt de selectie van de spelers en de tactiek in het veld.

In zijn artikel geeft hij de kenmerken van een analytische organisatie en de verschillende fases van analytische competitie.

Het artikel is te koop bij HBR, maar bij SAS of bij zijn onderzoeksgroep, Babson, is, na registratie, eenzelfde soort artikel gratis te downloaden. Bij SAS staat ook nog een interview met hem.

Davenport heeft, met een paar anderen, ook een groepsweblog en heeft pas een webinar over 'competing on analytics' gegeven, die vast nog wel ergens te zien zal zijn. Binnenkort komt het boek uit.

maandag, november 06, 2006

streaming analyses

diana.jpgIk ben aanwezig geweest bij het datawarehousing & Bi congres 2006 en het was dit jaar een uitermate geslaagd congres: inspirerende onderwerpen en goede sprekers. Ik zal proberen een een aantal posts te maken over de verschillende onderwerpen die aan de orde zijn geweest.

Allereerst realtime datawarehousing. Rick van der Lans, wat mij betreft de beste spreker in Nederland (download hier zijn gratis boek over het geven van presentaties) gaf weer een geweldige show weg en presenteerde 4 manieren om informatie realtime beschikbaar te maken voor analyses:

  1. Vereenvoudiging van dwh. door bv een virtueel dwh te creeëren (clikview is zo'n product) of etl en dwh zo te vereenvoudigen dat continue verversing mogelijk wordt.

  2. EII: enterpise information integration

  3. SOA

  4. Streaming data. En hier wil ik iets meer over vertellen.


Bij streaming data wordt de data niet geanalyseerd in een database, maar nog in het proces waar het onstaat of gebruikt wordt. Toepassingen zijn er vooral bij informatie intensieve processen waarbij realtime informatie van zeer groot belang is, zoals logistieke processen met rfid, de onvermijdelijke (automatische) beurstransacties, telecom, maar ook clickstreams van websites.

Producten op deze markt zijn: Streambase, Progress realtime, en Coral8. In Dmreview staat een goed artikel over de verschillende vormen van eventprocessing, zoals deze techniek ook wel wordt genoemd, van John Corell van Coral8.

In Nederland is dit gebied ook niet geheel onbekend. Integendeel, DIANA is een onderzoeksproject naar data stream mining van de vu in samenwerking met moniforce, interpay, robeco en BKWI. Voor de liefhebbers zijn een aantal artikelen over datastream mining beschikbaar.

Ook staan er verwijzingen naar andere onderzoekprojecten. Vooral op de stanford site is veel materiaal beschikbaar voor degenen die zich in het onderwerp willen verdiepen

donderdag, november 02, 2006

next gen dashboarding

alexvance.jpgGeen rapportjes meer via zo'n saai dashboard, maar een prachtige computergenereerde assistente die een persoonlijke briefing voor je houdt. Het bestaat nog niet, maar het komt er aan.

Kristian Hammond en 2 andere studenten van de Northwestern University van Evanston hebben ,een op softwareagents gebaseerd, systeem ontwikkelt dat die ontwikkeling in gang zou kunnen zetten.

Hun systeem, 'news at seven' verzamelt zelfstandig nieuws op het internet, zoekt daarbij foto's en video's en maakt er vervolgens een nieuwsbulletin van. De presentatrice is cyberbabe Alex Vance uit half-life2.

woensdag, november 01, 2006

Business intelligence zoekmachine

Google heeft Google co-op geherintroduceerd waardoor het nu plotseling mogelijk is om heel gemakkelijk een zoekmachine te maken die alleen zoekt in sites die je bij google co-op hebt opgegeven. Bovendien is het mogelijk om sites te labelen naar onderwerp waardoor je zeer eenvoudig de zoekresultaten kunt verfijnen.

Met enige trots presenteer ik dan ook de business intelligence search engine. De zoekmachine is een work in progress en zoekt alleen in datawarehouse en business intelligence gerelateerde sites. Mijn uitgangspunt is om de marketingpraatjes in de resultaten uit te sluiten. Dat zou moeten betekenen dat resultaten van leveranciers minder prominent aanwezig zullen zijn.

Datakwaliteit van het bevolkingsregister

Een mooi voorbeeld van een vervuild bestand, ditmaal het bevolkingsregister van Amsterdam. Met name de adresgegevens kloppen niet. Uit een anp-bericht van 30-10-2006:
"Ruim honderdduizend Amsterdammers, 15 procent van het totale aantal inwoners in de hoofdstad, wonen niet op het adres dat is opgegeven bij de gemeente. Vooral door gesjoemel met uitkeringen is de Gemeentelijke Basisadministratie (GBA) ernstig vervuild.

Bewoners verstrekkenverstrekken verkeerde adresgegevens of geven veranderingen in hun woonsituatie niet door. Dat liet de Dienst Persoonsgegevens van Amsterdam maandag weten in het tv-programma Netwerk.

De vervuiling van de gemeentelijke administratie kost Amsterdam jaarlijks zeker 10 miljoen euro. De gemeente weet niet precies hoeveel mensen bewust frauderen, maar het zou zeker om enkele procenten gaan."

Het zou vooral om fraude gaan, maar verderop staat toch duidelijk dat de fraude enkele procenten betreft. Netwerk had de scoop en doet alsof de chaos van het bestand te wijten is aan fraude.

Mijn datamanagersinstinct zegt dat het slecht onderhoud is. Voor minder dan 10 miljoen euro per jaar kun je het bestand schonen, door het te koppelen met andere adresbestanden.