Databikkel: 2006

woensdag, december 20, 2006

Datavisualisatie met excel

$fractalmaps.jpg$

Excel is in de BI-wereld not done. Excel functioneert vaak als schaduwsysteem naast de officiele rapportages, spreadsheets zijn organisatiebreed slecht te beheren en voor compliance is het een ramp, omdat de cijfers makkelijk zijn te manipuleren en moeilijk zijn te controleren.

Maar vertel dat maar eens aan data-analisten. Zeker als er voor excel 2007 zulke mooie plugins gebouwd gaan worden als Fractaledge heeft gedaan. Fractalmaps is een adembenemend mooi datavisualisatie tool.

De meest innovatieve pure BI-players volgens Google Patents

Hoe innovatief zijn de pure BI players? Dat kun je nu aardig meten met google patentsearch. Ik heb de grootste spelers van het BI veld gegoogeld:

Microstrategy: 44 patenten

Cognos: 16 patenten

Hyperion: 12 patenten

Business Objects: 7 patenten (inclusief 1 van acta)

Zegt dit nu iets? Dat weet ik eigenlijk niet. Bedrijven zullen innovatieve patenten gebruiken die niet op hun naam staan. Sommige patenten lijken onnozel: bv 'een userinterface for a computerscreen'. En waarschijnljk staan er patenten op naam van bedrijven die zijn overgenomen. Andere patenten zijn misschien al weer achterhaald. Kortom, beetje nutteloze excercitie. Het is wel aardig om door de tekeningen van de patenten te browsen, als je echt niets te doen hebt.

dinsdag, december 19, 2006

Predictive data mining werkt niet

Althans niet als middel om aanslagen van terroristen te voorkomen. Simpelweg omdat de voorspellingen uit predictive data mining niet accuraat genoeg zijn om de 'bad guys' aan te wijzen. Dit beweren Jeff Jonas en Jim Harper in hun paper: 'effective counterterrorism and the limited role of predictive data mining'. In het stuk staan tegelijkertijd ook een aantal goede voorbeelden van de voordelen van datamining voor direct marketing. Hieronder kort door de bocht de 2 redenen waarom predictive data mining niet werkt voor contra-terrorisme:

Predictive data mining verbetert de repons van een marketingactie over het algemeen maar met enkele procenten, maar dat is genoeg om de kosten van direct marketing te reduceren en het aantal klachten van consumenten te verminderen (vanwege minder ongewenste aanbiedingen). Desondanks is het percentage fout-positieven van een gedataminede marketingactie, over het algemeen meer dan 90%. Voor een terrorisme onderzoek is dat percentage onacceptabel vanwege het aantal onschuldige verdachten wat moet worden onderzocht.

Predictive data mining zoekt naar patronen in klantdata om het gedrag van klanten te voorspellen. Daartoe moeten datamining tools getrained worden met substantiele datasets van klanten zodat zinvolle patronen ontstaan waarmee het gedrag van klanten is te voorspellen. Je traint die data voor een bepaald doel bv fraudedetectie of op de kans dat ze een bepaald product zullen gaan kopen. Het probleem met terroristen is dat het doel van hun activiteiten onvoorspelbaar is en dat er te weinig (historische gegevens over) terroristische activiteiten zijn om zinvolle patronen te ontdekken. Iets dergelijks beweerde ik ook in een post uit 2003 met als kanttekening dat het beleid van Bush het probleem van het gebrek aan terroristische data vanzelf zou oplossen.

Predictive datamining werkt dus niet. Wat volgens Jonas en harper wel zou werken is: gegevens verzamelen over verdachte personen en die met elkaar in verband brengen. Hun voorbeeld van de aanslagen van 9/11 maakt pijnlijk zichtbaar hoe relatief eenvoudig de beschikbare gegevens van de verschillende terroristen met elkaar gerelateerd hadden kunnen worden. Deze case, tezamen met de bezwaren tegen predictive data mining, laat, wat mij betreft, zien dat grootschalige data mining activiteiten van overheden niet nodig zijn om aanslagen van bad guys te voorkomen.

maandag, december 18, 2006

Het mooiste dashboard

De glorieuze winnaars van Gartner's Corporate Performance management suite 2006 zijn Hyperion en Cognos. Zo'n suite bestaat volgens Gartner uit de volgende componenten:

Budget, planning and forecasting

Profitability modelling and optimization

Financial consolidation

Statutory and financial reporting

Dashboard applications

En over die dashboards wil ik het even hebben. Zijn die dashboards van Hyperion en Cognos ook het mooiste wat er op de markt te vinden is? Toegegeven, het is niet het allerbelangrijkste criterium, Grtner scoort erook niet op, maar als manager moet je wel iedere dag tegen zo'n ding aankijken. Ik heb screenshots genomen van scorecards die bij Hyperion en bij Cognos op de site staan.

Hier de scorecard van Cognos (klik op de het plaatje):

En hier de scorecard van hyperion (klik op de het plaatje):

Vooral hyperion's scorecard is nogal rommelig. Overigens geldt dat ook voor veel andere scorecards uit de CPM oplossingen in Gartner's magic quadrant. Stephen Few heeft een aantal regels voor het ontwerpen van goede dashboards. Het bedrijf visual engineering heeft die regels verwerkt in zijn scorecard oplossing. En dit is het resultaat (klik op de het plaatje):

De trendlijn is uitgevonden door Tufte en wordt een sparkline genoemd. Die andere grafiek is ontworpen door Few. Dit is zgn. bulletgraphs. Over de bulletgraph verschillen de meningen: Ze zijn nl. niet heel intuïtief. Maar toch is dit de mooiste scorecard die ik tot nu toe ben tegengekomen.

maandag, december 11, 2006

Voor datafreaks: Swivel

Dé oplossing voor data-analisten die nu eindelijk wel eens verrassende verbanden in hun data willen vinden: Swivel. Swivel is een web 2.0 site waar je gegevenssets met elkaar deelt, vergelijkt, becommentarieert en tagt. Wat swivel bijzonder/bizar maakt is dat je alle beschikbare gegevens tegen elkaar kunt afzetten.
Laad een gegevensset op en Swivel komt automatisch terug met verbanden die je in je wildste fantasieen niet had kunnen verzinnen. En misschien dat deze site wel gaat bewijzen dat alles met alles samenhangt, als er tenminste niet al te veel valse gegevens worden geupload.

Klantkennis oogsten op het web

Informatie over klanten wordt nu hoofdzakelijk verzamelt uit interne bronnen. Dat geeft maar een beperkt beeld van zo'n klant en daarom worden vaak externe bestanden gekocht om die klantinformatie te verrijken. Maar meer en meer klanten hebben ook veel informatie open en bloot op het web staan. Die klanten hebben een weblog of hebben commentaar geleverd op weblogs, consumentensites, nieuwsgroepen etc.

Wat let bedrijven om die informatie te oogsten met speciale webspiders en zo interesses, vrienden, kennissen en familie in kaart te brengen om zo 'het aanbod beter af te stemmen op de klant'? Beetje op de manier zoals spammers nu emails harvesten, maar dan ingewikkelder om slimme relaties te leggen tussen al die brokjes ongestructureerde informatie die we overal op het web achterlaten.

Het grootste beletsel is de techniek, die is nog niet zover, maar komt er wel aan. Sterker nog de Amerikaanse overheid heeft een 47 miljoen dollar kostend prototype van zo'n systeem onder het mom van terrorismebestrijding. Het systeem, ADVISE, (Analysis, Dissemination, Visualization, Insight and Semantic Enhancement) genaamd, gaat nog verder omdat het ook gebruik maakt van niet openbare bronnen.

Volgens een rapport van het Amerikaans sciencemonitor doet ADVISE het volgende:

"It would collect a vast array of corporate and public online information - from financial records to CNN news stories - and cross-reference it against US intelligence and law-enforcement records. The system would then store it as 'entities' - linked data about people, places, things, organizations, and events,.."

Sourcewatch heeft een compleet dossier over ADVISE. Er is ook een presentatie over hoe ADVISE zal werken. Technisch best interessant, moet ik bekennen, en ik ben benieuwd hoe lang het duurt voordat er commerciële varianten op de markt verschijnen. Qua privacy is 'customer harvesting' natuurlijk een ramp en voor zover ik weet is dit niet goed geregeld in de WBP.

donderdag, december 07, 2006

Mooie dashboards ontwerpen

Juice analytics heeft 1, 2 posts over een videopresentatie van Seth Godin waarin hij de beroemde Napoleon-grafiek, volgens Tufte de beste ooit gemaakt, afkraakt.

De essentie van zijn kritiek is dat je de grafiek 15 minuten moet bestuderen voordat je door hebt wat er staat. 'Goed' is volgens Godin afhankelijk van de context. In de context van het bedrijfsleven is het één van de slechtse grafieken ooit gemaakt, want daar moet een grafiek in een paar seconden duidelijk maken wat ermee bedoeld wordt.

Wat een goede grafiek in het bedrijfsleven is, is door de dashboard-hype een hot item. Hieronder een aantal sites waar hierover info te vinden is.

Dé guru op dit gebied is Stephen Few, die zijn ideeën weer grotendeels heeft ontleend aan Tufte. Op zijn website perceptual edge staan mooie voorbeelden van slecht ontworpen grafieken. En in deze pdf legt hij aan de hand van voorbeelden uit aan welke designeisen, dashboards moeten voldoen.

Calumo is op het corporate weblog een serie gestart over slechte grafiek ontwerpen en te vermijden valkuilen.

Dashboardspy heeft een enorme collectie van lelijke en mooie enterprise dashboards.

zondag, december 03, 2006

Gartner's magic quadrant voor Data Integratie Tools

Bij SAS staat het magisch quadrant van Gartner voor 'Data Integration Tools 2006' online, omdat ze bij de oh zo belangrijke visionairies zijn ingedeeld. IBM en Informatica staan trouwens eenzaam aan kop in het leaders/visionairies quadrant.

Opvallend lijkt, de toch wel lage waardering van Oracle Warehouse Builder, met name zo interessant omdat het gratis wordt meegeleverd met de database van Oracle.

Gartner deelt OWB laag in omdat OWB nog geen mogelijkheid heeft om niet-oracledatabases te ontsluiten en dat het product vooral bedoeld is (en ingezet wordt) voor klassiek ETL; de visionairies kunnen breder worden ingezet omdat die messagingmogelijkheden hebben.

In het magische kwadrant ontbreken de open source ETL tools en dat zijn er tegenwoordig nogal wat. Managebility heeft alle op java gebaseerde open source ETL-tools op een rijtje.

dinsdag, november 28, 2006

Worldmapper

Worldmapper is een collectie wereldkaarten waar de grootte van een land wordt bepaald door het onderwerp, bv het aantal geboortes in een land of bv de uitstoot van kooldioxide. Er zijn iets van 25 categorieën die elk weer een aantal kaarten over een bepaald ondewerp bevatten.

Naast het feit dat ik die weergave wel heel goed vind - in 1 opslag zie je wat er aan de hand is - zijn veel van de onderwerpen 'urgent'. Kijk bv maar eens naar de kaart van de 'human footprint' (pdf) die speciaal gemaakt is voor het wwf.

Maar voor zoiets ordinairs als een kaartje van postcodegebieden zou deze weergave ook uitstekend werken.

maandag, november 27, 2006

Veel BI in Top 30 IT trends 2007

CIO Insight heeft, obv enquetes onder cio's en cto's, een top 30 samengesteld met de belangrijkste IT-trends voor 2007. En niet geheel verwonderlijk, speelt BI daar een belangrijke rol in.

In de categorie strategie staat op de 5e plaats: "Companies put their mounds of data to work". Het blijkt dat bedrijven zo'n 43% van de gegenereerde klantdata verzamelen en analyseren. 52% van de business users klaagt erover dat ze niet de informatie krijgen die ze nodig hebben.

In de categorie technologie staat "dataquality demands attention" op de 3e plaats. Maar 4% van de ondervraagden beschouwt de interne, externe en gestructureerde en ongestructureerde data als 'uitstekend'.

Op de 7e plaats in de categorie technologie staat: "for business Intelligence, the best has yet to come". BI blijkt in meer IT budgetten voor te komen dan elk ander it-initiatief.

zondag, november 26, 2006

Gapminder: lol met statistieken

"Begrijp de wereld door lol te hebben met statistieken", is het motto van Gapminder, een non-profit bedrijf dat de ontwikkeling va

n de mensheid visualiseert. Op TED, een jaarlijkse conferentie met 'thought-leaders', heeft een van de oprichters, Hans Rosling een prachtige presentatie gegeven met gapminder. De lol van gapfinder zit vooral in het feit dat je de grafieken door de tijd heen ziet veranderen. Het heeft veel weg van excelsius en spotfire.

Het ultieme doel van gapminder is om via internet alle saaie dure en complexe statistische gegevens van de VN, NGO's en nationale onderzoeken, op een leuke en begrijpelijke manier beschikbaar te maken, het liefst via Google. En dat is al redelijk gelukt want via de subscribed links van google zijn de resultaten al op te vragen. En via Google tools kun je met de grafieken van gapminder spelen.

dinsdag, november 21, 2006

Open source business intelligence overzicht

Pentaho is de eerste open source Business Intelligence suite (1,5 miljoen downloads) dat serieus zou kunnen concurreren met commerciele BI-leveranciers. Pentaho is een bi-platform met rapportage, analyse, dashboarding,workflow en datamining mogelijkheden.

En bij pentaho alleen zal het niet blijven. Er zijn nu al zo'n 25 open source projecten voor Business Intelligence tools. De open source bi pagina van squidoo biedt een uitstekend overzicht. Een paar kansrijke suites en olap tools pik ik er hier uit:

Het BEE-project is een tjechisch project met etl, rolap en rapportagemogelijkheden, met mysql als onderliggende database.

Open-i is een olap rapportage omgeving dat draait op Mondrian of Microsoft Analysis services. Het project was finalist voor de sourceforge community choice awards.

SpagoBi is een italiaans project en een compleet platform met datamining, rapportage, olap, dashboards en datamanagement oplossingen.

Palo, is een addin voor Excel. Aan Excel wordt een MOLAP-database toegevoegd waardoor je een hoeveelheid data gelijk aan 1000-en excelsheets in één excelsheet kunt bewerken die ook nog eens meer mogelijheden biedt.

maandag, november 20, 2006

Oracle Open World BI presentaties

De presentaties van het Oracle open world forum 2006 staan online. Oracle heeft daar nogal belangrijke aankondigen gedaan over haar BI-strategie. Hieronder staan een aantal presentaties over Business Intelligence die ook zonder bijbehorende commentaar interessant zijn (username=cboracle password=oraclec6):

Oracle Balanced scorecard overview. Geeft een goed overzicht van de marktrends en de 3 opeenvolgende evolutiecycli van de scorecard.

Oracle's business intelligence roadmap. Oracle Discoverer blijft bestaan, maar de Business Analytics-suite van Siebel wordt hét BI-platform van Oracle.

Inside Oracle Business Intelligence Analytics Server. Een uitstekend overzicht van Mark Rittman met gedetailleerde info over de werking van deze server. (ook op zijn blog te vinden)

Er staan nog veel meer presentaties en cases van het oracle open world forum. En 28 november is Bi City, een eendaags seminar van Oracle, waar je ongetwijfeld bijgepraat gaat worden over deze onderwerpen.

Eén versie van de waarheid

Eén van de argumenten voor een data warehouse is, dat het voor een organisatie één versie van de waarheid oplevert . Als data manager met een postmodernistische inslag moet ik daar altijd een beetje om gniffelen.

Op een basaal niveau klopt dat argument ook wel. Er gaat altijd veel tijd zitten in het verklaren van verschillen in rapporten over hetzelfde onderwerp die afkomstig zijn uit verschillende bronnen en/of van verschillende afdelingen. Een data warehouse kan, als managers de cijfers van het data warehouse eenmaal accepteren als de waarheid, veel tijd besparen.

Maar zelfs dan, levert de interpretatie van die cijfers of het benadrukken van bepaalde cijfers weer een veelheid van waarheden op waar managers weer overeenstemming over moet bereiken. Een aardig voorbeeld stond afgelopen week in de kranten. Dit waren de conclusies van de verschillende kranten nav een en hetzelfde onderzoek van Rutgers Nisso:

Minder vaak seks dan gewild (AD)

Volwassen vrijen vaker met zichzelf (NRC)

Nederlander heeft afwisselende seks (Trouw)

Twee miljoen mensen kampen met seksuele problemen (Stentor)

dinsdag, november 14, 2006

BO gaat 2.0

Information week heeft een artikel over de nieuwe features van Business Objects. Nu geloof ik dat meestal wel, maar deze zijn écht leuk en bijna web 2.0-achtig.

Via het ook al nieuwe BO labs waar je nieuwe features kunt testen zijn ze te downloaden (nu de beheerders nog even lief aankijken):

Mobile BI: rapporten voor op een smartphone of blackberry

BI Collaborator: Hiermee kun je rapporten delen via windows live messenger

Graphics Masher: een tooltje om rapportdata te combineren met bv Yahoo Maps.

Een revolutie in meten

"We zijn getuige van een revolutie in het meten", vertelde Jon Kleinberg, een professor in social media analyses, op '2016', een symposium over de ontwikkelingen in computer science. Wat is dan die revolutie?

"The new social-and-technology networks that can be studied include e-mail patterns, buying recommendations on commercial Web sites like Amazon, messages and postings on community sites like MySpace and Facebook, and the diffusion of news, opinions, fads, urban myths, products and services over the Internet. Why do some online communities thrive, while others decline and perish? What forces or characteristics determine success? Can they be captured in a computing algorithm?"

Dit is ook een van de onderzoeksonderwerpen van het web science research initiative, waarvan Tim Berners Lee een van de oprichters is. Het initiatief is breder van opzet en zal de sociale en technologische gevolgen van de opkomst van het web onderzoeken:

"The Web Science Research Initiative (WSRI) will generate a research agenda for understanding the scientific, technical and social challenges underlying the growth of the Web. Of particular interest is the volume of information on the Web that documents more and more aspects of human activity and knowledge. WSRI research projects will weigh such questions as, how do we access information and assess its reliability? By what means may we assure its use complies with social and legal rules? How will we preserve the Web over time?"

Waarom ik dit blog? Ik zie allerlei nieuwsoortige analyses ontstaan die ongetwijfeld een spinoff krijgen naar BI-achtige toepassingen en web analyses.

maandag, november 13, 2006

Conclusies van het DWH & BI Congres 2006

Omdat ik me niet te veel tijd heb voor een compleet verslag, zet ik hier de, voor mij, belangrijkste conclusies van het DWH & BI congres 2006 op een rij:

Masterdatamanagement is metadata++. Als we metadata nooit in de vingers hebben gekregen waarom masterdata dan wel? (van der Lans)

Masterdatamanagement is voor 70% politiek en voor 30% tools. (Buytendyk)

Voor technische metadata zijn er genoeg oplossingen, maar er is geen enkel bedrijf in de wereld dat ook business metadata goed geimplementeerd heeft in het data warehouse. (Inmon)

Een datawarehouse is geen technisch lapmiddel. Het is nodig voor compliance & ontkoppeling. Ontkoppeling wil zeggen: een plek waar gegevens op een bepaald moment bevroren zijn in de tijd. (Buytendyk)

Ondanks het feit dat de hardware de afgelopen tijd beter en dus sneller is geworden en ondanks het feit dat de hoeveelheden data niet zijn toegenomen, wordt bij de Business Intelligence tools meer geklaagd over response. Dat kan komen omdat men gewend is geraakt om binnen een halve secode response te krijgen op een zoekopdracht van Google. (Pendse)

Dimensionele modellen zijn niet geschikt voor het meten van Kritische Performance Indicatoren omdat KPI's een hierarchische relatie hebben. (Habers)

Alleen een sterschema is voor databasemarketeers niet genoeg. Databasemarketing vereist complexe aggregaties en gekantelde meetwaarden (meetwaarden opgenomen in dimensies) (Habers)

Appliances als Netezza vereenvoudigen de ontwikkeling en het beheer van een data warehouse omdat performancetuning zoals indexering en partitionering niet meer nodig zijn (Habers)

Er zijn maar 2 producten in de wereld waarmee veranderingen in data(structuren) goed te modelleren zijn: Kalido en BIReady. (Inmon)

64 bits gaat een revolutie ontketenen in BI-land (bv In memory kubussen worden daardoor mogelijk). (Lamoo)

De BI-markt is nog niet volwassen. Vanuit aanpalende gebieden komen er nog steeds nieuwe toepassingen. (Van der Linden)

De markt is nog niet verdeeld tussen de grote spelers. Nog steeds komen er nieuwe en innovatieve BI-tools bij. (Van der Linden)

vrijdag, november 10, 2006

Ongestructureerde business intelligence

Bill Inmon heeft in zijn getrademarkete en gecoprightete term DW 2.0 (die dobbel joe toe dot zero) een ruime plaats ingeruimd voor het ontsluiten van ongestructureerde data in het data warehouse. En Business Objects heeft het open search initiative gelanceerd, een samenwerkingsverband voor text analytics en enterprise search.

BI & data warehousing gaan dus duidelijk een nieuwe fase waarin zoeken in ongestructureerde data een belangrijke rol gaat spelen.

Search is bijna een synoniem voor Google. Om je te laten zien dat er meer is dan google heb ik een quickscan gemaakt van een aantal innovatieve zoekmachines die door nieuwswebsites worden gebruikt (ik werk nu eenmaal bij een mediabedrijf), maar ook als interne zoekmachine kunnen worden ingezet.

De BBC maakt gebruik van Autonomy. Volgens Gartner het beste wat er is op dataretrieval. Alle gerelateerde artikelen en video's bij een artikel op de BBC nieuwssite, worden gegenereerd door deze zoekmachine. Daar komt - bijna - geen journalist en metadata aan te pas. Autonomy maakt nl ook volautomatisch transcripts van video en audio. Die techniek wordt geleverd door Virage. Virage zie je in actie bij Blinkx, een uitgeklede consumentenversie van autonomy.

dinsdag, november 07, 2006

Terrorisme score voor reizigers

27B stroke 6 en de electronic frontier foundation hebben posts over het nieuwe terrorisme scoresysteem van Homeland Security. Het 'automated target system' gebruikt data, afkomstig van luchtvaartmaatschappijen, het I-94 formulier en andere databronnen voor het bepalen van je terrorismerisico zodra je de grens met de Verenigde Staten oversteekt.

De data zoals medische conditie, frequent flier nummer, speciale voedsel verzoeken, huis- en emailadres, betalingsinformatie en de naam van het reisbureau zal 40 jaar worden vastgehouden en kan ook met buitenlandse overheden worden gedeeld. Het plaatje hierboven zegt genoeg.

Concurreren op analyses

In de jaren 90 tijdens de hausse van ERP-implemenaties, heb ik me regelmatig afgevraagd waarmee bedrijven nog concurrentievoordeel via IT zouden kunnen behalen als bedrijven de primaire processen via ERP min of meer op dezelfde manier zouden hebben gestandaardiseerd. Dat zou alleen kunnen op de wijze waarop zij hun informatie zouden gebruiken.

Bij het toenmalige BSO/Origin hebben we toen een SIG opgericht die zich dan ook bezighield met het verkrijgen van managementinformatie uit SAP en Baan.

Tom H. Davenport heeft pas een artikel gepubliceerd waaruit blijkt dat er inderdaad nu een aantal bedrijven zijn waar data-analyse een essentiele concurrerende factor is geworden.

Voorbeelden van die bedrijven zijn Amazon, Capital One, P&G. Maar ook een footballteam als de New England Patriots, die de superbowl 4 jaar op een rij heeft gewonnen, maakt binnen en buiten het veld intensief gebruik van data en analytische modellen. Statistiek bepaalt de selectie van de spelers en de tactiek in het veld.

In zijn artikel geeft hij de kenmerken van een analytische organisatie en de verschillende fases van analytische competitie.

Het artikel is te koop bij HBR, maar bij SAS of bij zijn onderzoeksgroep, Babson, is, na registratie, eenzelfde soort artikel gratis te downloaden. Bij SAS staat ook nog een interview met hem.

Davenport heeft, met een paar anderen, ook een groepsweblog en heeft pas een webinar over 'competing on analytics' gegeven, die vast nog wel ergens te zien zal zijn. Binnenkort komt het boek uit.

maandag, november 06, 2006

streaming analyses

Ik ben aanwezig geweest bij het datawarehousing & Bi congres 2006 en het was dit jaar een uitermate geslaagd congres: inspirerende onderwerpen en goede sprekers. Ik zal proberen een een aantal posts te maken over de verschillende onderwerpen die aan de orde zijn geweest.

Allereerst realtime datawarehousing. Rick van der Lans, wat mij betreft de beste spreker in Nederland (download hier zijn gratis boek over het geven van presentaties) gaf weer een geweldige show weg en presenteerde 4 manieren om informatie realtime beschikbaar te maken voor analyses:

Vereenvoudiging van dwh. door bv een virtueel dwh te creeëren (clikview is zo'n product) of etl en dwh zo te vereenvoudigen dat continue verversing mogelijk wordt.

EII: enterpise information integration

Streaming data. En hier wil ik iets meer over vertellen.

Bij streaming data wordt de data niet geanalyseerd in een database, maar nog in het proces waar het onstaat of gebruikt wordt. Toepassingen zijn er vooral bij informatie intensieve processen waarbij realtime informatie van zeer groot belang is, zoals logistieke processen met rfid, de onvermijdelijke (automatische) beurstransacties, telecom, maar ook clickstreams van websites.

Producten op deze markt zijn: Streambase, Progress realtime, en Coral8. In Dmreview staat een goed artikel over de verschillende vormen van eventprocessing, zoals deze techniek ook wel wordt genoemd, van John Corell van Coral8.

In Nederland is dit gebied ook niet geheel onbekend. Integendeel, DIANA is een onderzoeksproject naar data stream mining van de vu in samenwerking met moniforce, interpay, robeco en BKWI. Voor de liefhebbers zijn een aantal artikelen over datastream mining beschikbaar.

Ook staan er verwijzingen naar andere onderzoekprojecten. Vooral op de stanford site is veel materiaal beschikbaar voor degenen die zich in het onderwerp willen verdiepen

donderdag, november 02, 2006

next gen dashboarding

Geen rapportjes meer via zo'n saai dashboard, maar een prachtige computergenereerde assistente die een persoonlijke briefing voor je houdt. Het bestaat nog niet, maar het komt er aan.

Kristian Hammond en 2 andere studenten van de Northwestern University van Evanston hebben ,een op softwareagents gebaseerd, systeem ontwikkelt dat die ontwikkeling in gang zou kunnen zetten.

Hun systeem, 'news at seven' verzamelt zelfstandig nieuws op het internet, zoekt daarbij foto's en video's en maakt er vervolgens een nieuwsbulletin van. De presentatrice is cyberbabe Alex Vance uit half-life2.

woensdag, november 01, 2006

Business intelligence zoekmachine

Google heeft Google co-op geherintroduceerd waardoor het nu plotseling mogelijk is om heel gemakkelijk een zoekmachine te maken die alleen zoekt in sites die je bij google co-op hebt opgegeven. Bovendien is het mogelijk om sites te labelen naar onderwerp waardoor je zeer eenvoudig de zoekresultaten kunt verfijnen.

Met enige trots presenteer ik dan ook de business intelligence search engine. De zoekmachine is een work in progress en zoekt alleen in datawarehouse en business intelligence gerelateerde sites. Mijn uitgangspunt is om de marketingpraatjes in de resultaten uit te sluiten. Dat zou moeten betekenen dat resultaten van leveranciers minder prominent aanwezig zullen zijn.

Datakwaliteit van het bevolkingsregister

Een mooi voorbeeld van een vervuild bestand, ditmaal het bevolkingsregister van Amsterdam. Met name de adresgegevens kloppen niet. Uit een anp-bericht van 30-10-2006:

"Ruim honderdduizend Amsterdammers, 15 procent van het totale aantal inwoners in de hoofdstad, wonen niet op het adres dat is opgegeven bij de gemeente. Vooral door gesjoemel met uitkeringen is de Gemeentelijke Basisadministratie (GBA) ernstig vervuild.

Bewoners verstrekkenverstrekken verkeerde adresgegevens of geven veranderingen in hun woonsituatie niet door. Dat liet de Dienst Persoonsgegevens van Amsterdam maandag weten in het tv-programma Netwerk.

De vervuiling van de gemeentelijke administratie kost Amsterdam jaarlijks zeker 10 miljoen euro. De gemeente weet niet precies hoeveel mensen bewust frauderen, maar het zou zeker om enkele procenten gaan."

Het zou vooral om fraude gaan, maar verderop staat toch duidelijk dat de fraude enkele procenten betreft. Netwerk had de scoop en doet alsof de chaos van het bestand te wijten is aan fraude.

Mijn datamanagersinstinct zegt dat het slecht onderhoud is. Voor minder dan 10 miljoen euro per jaar kun je het bestand schonen, door het te koppelen met andere adresbestanden.

donderdag, oktober 26, 2006

Web Intelligence

Customer/Business Intelligence en web analytics zijn 2 gescheiden werelden met elk hun eigen tools, termen en oplossingen. Die werelden overlappen meer en meer.

Zo heeft SAS al een web analytics solution en heeft SPSS Netgenesis en predictive web analytics. En vanuit de webanalytics-kant heeft Moniforce de mogelijkheid om een datamart met webgegevens te genereren die eventueel geintegreerd kan worden met offline gegevens van een bestaand data warehouse.

Evenzo heeft Webtrends in haar laatste versie het marketing warehouse geïntroduceerd. Het is een kwestie van tijd dat andere mainstream BI-leveranciers, als bv Cognos en Business Objects, een web intelligence oplossing zullen aanbieden.

Voor de BI-diehards staan er - als een soort introductie - deze week 3 posts over webanalytics op marketingfacts:

Een post over het multivariaat testen van landingspagina's naar aanleidng van de introductie van Google's website optimizer. In de post wordt ook verwezen naar - een voor mij - nieuwe term: de Taguchi algoritmes, een alternatieve manier om multivariaat te testen.

Een post over conversieratio's, waar ook bivariaat testen ter sprake komt.

Een presentatie van Eric T Peterson over web analytics als bedrijfsproces.

woensdag, oktober 25, 2006

Jitterbit, EAI voor dummy's

Jitterbit is een open source tool om heel makkelijk applicaties aan elkaar te knopen. Via een drag en drop interface is het een fluitje van een cent om data afkomstig uit de gangbare databases, Web Services, XML Files, HTTP/S, FTP, ODBC, platte en hierarchische bestanden en fileshares, te transformeren en te integreren. Infoworld heeft een kort artikel over jitterbit.

Een ander onderscheidend kenmerk van jitterbit is dat je herbruikbare integratiemodules, zgn jitterpaks, kunt maken die je met andere gebruikers kunt delen. Zo zijn er al jitterpaks voor salesforce, amazon en sugarcrm.

Het is de bedoeling dat er een actieve community rondom jitterbit onstaat en alle ingredienten zoals een forum, wiki en blog zijn daarvoor aanwezig.

Business intelligence op de kaart

Louella Fernandes van it-director heeft een goed overzichtsartikel over de mogelijke toepassingen van geografische informatie voor BI. En ze schetst de samenwerkingverbanden tussen de traditionele GIS-leveranciers als ESRI en Mapinfo en de BI-leveranciers als Hyperion, Business Objects en Cognos.

Daarnaast gaat ze in op de mogelijkheden die Virtual Earth en Google Maps bieden voor BI-leveranciers.

woensdag, oktober 18, 2006

See Why, business intelligence 2.0

Wat is er eigenlijk niet revolutionair aan SeeWhy, een business intelligence bedrijf dat is opgericht door Charles Nicholls, een ex-executive van Business Objects.

Het is real time business intelligence

Het is ontworpen voor SOA (service Oriented Architecture)

See Why hanteert een open business model.

Iedereen kan en mag participeren in de ontwikkeling van het product.

De software is gratis, althans de community versie.

Een radicaal nieuwe visie op BI dat door SeeWhy stream analytics is gedoopt. Zie daarvoor ook het plaatje met de verschillen tussen traditionele BI en BI 2.0. De realiteit is echter dat SOA's in Nederland nog in de kinderschoenen staan, laat staan het analyseren ervan. Maar ik denk dat het zeker de moeite waard is om dit bedrijfje te blijven volgen, al is het alleen maar hun blog.

Amaznode

Amaznode is een zoekmachine voor amazon. Het zoekresultaat visualiseert een netwerk van gerelateerde producten, gebaseerd op de statistische gegevens van 'kopers die dit item kochten, kochten ook'.

dinsdag, oktober 17, 2006

Postcodegebieden en Google maps

In ons bedrijf hebben we altijd met veel plezier gewerkt met Micromarketer van Experian. Door omstandigheden hebben we echter afscheid moeten nemen van dit pakket waarmee je zulke mooi kaartjes kunt maken. We zijn op zoek naar een nieuwe oplossing en ik heb wat research gedaan naar google maps.

In plaats van de gebruikelijke pushpins of vlaggetjes zou ik graag gekleurde postcodewijken (postcode4) willen tekenen obv van demografische gegevens, maar dat schijnt een heidens karwei te zijn. Dit is het enige voorbeeld van Google maps met gebieden wat ik heb kunnen vinden.
Op het blog Best webfoot forward wordt uitgelegd hoe je dat moet doen.

zondag, oktober 15, 2006

Over dit blog

Over mij:
Ik ben Albert Besselse en heb als consultant in uiteenlopende rollen gewerkt aan datawarehouse- en BI-projecten bij verschillende telecombedrijven, banken en overheidsorganisaties.

Voor de context van het blog is het wel goed om te weten in welke omgeving ik nu werk. Momenteel ben ik data (warehouse) manager bij een groot mediabedrijf. Het data warehouse is gericht op direct marketing en analytische CRM. We gebruiken hier Oracle, Business Objects XI, Trillium, SPSS en Messagent. Het data warehouse bevat contact- en klantgegevens van zowel het web als de reguliere bedrijfsprocessen.

Over dit blog:
DATABIKKEL is een samenstelling van DATA, BI en Kwaliteit. Daarnaast staan mijn initialen (dat-AB-ikkel) in de naam. Voor de overige letters moet ik nog steeds iets leuks verzinnen verzinnen. Ik blog sinds 2003 op verschillende blogs, waaronder ab logger en heb sinds kort ook een intern bedrijfsblog over - voor ons bedrijf relevante - ontwikkelingen op het internet.

Na jarenlang overal en nergens over geblogd te hebben leek me het verstandig me te beperken tot het gebied waar ik het meeste thuis in ben: data warehousing en alles wat daar bij komt kijken. Eigenlijk is dit ook nog veel te breed; er zijn ongeloofelijk veel bronnen over het vakgebied en bijna net zo veel guru's. Ik pretendeer ook niet een compleet overzicht van de ontwikkelingen te bloggen. Het is een persoonlijk verslag van ontwikkelingen, methodes en tooltjes die mij opvallen.

Wat valt mij op (in ontwikkeling):

De convergentie van de op de interne bedrijfsprocessen gerichte BI-tools en web analytics.

EAI en SOA. Webservices veranderen de manier van dataverzamelen voor data warehouses en zullen aan de voorkant ervoor zorgen dat beslisinformatie veel meer geïntegreerd zal zijn in de operationele bedrijfsprocessen.

On demand BI. Het verhuren van de software via het web belooft installatie-, schalings en versie/migratieperikelen oftewel beheerproblemen weg te nemen bij bedrijven.

Open business modellen van BI-leveranciers zoals See Why

Open source BI.

Data mining. Al jarenlang een trend die maar niet wil doorbreken als middel om te analyseren. Misschien zal datamining, met de komst van open source en de goedkope oplossingen van sqlserver en Oracle eindelijk doorbreken. Aan de andere kant worden op data mining gebaseerde aanbevelingsmechanismen steeds breder toegepast en zal de enorme groei van bedrijfsinterne data het automatiseren van analyses noodzakelijk maken.

De strijd der bi-giganten. Het gevecht van Microsoft, Oracle, Hyperion, Cognos, en Business Objects om de BI-markt.

Datavisualisatie. De enorme hoevelheden data die gegenereerd en opgeslagen worden, vragen om een andere weergave dan de traditionele excel-grafiekjes.

Operational Business Intelligence. De huidige beslissingscycli zijn lang en hiërarchisch: van de werkvloer naar het management en weer terug. BI moet daar zijn waar direct actie kan worden ondernomen.

Search. Ongestructureerde informatie uit allerlei bedrijfsdocumenten, maar ook spraak en video, structureren en gebruiken in BI, is een hele interessante.

Nieuwsoortige analyses. Bv social media analyses.

donderdag, oktober 12, 2006

Gratis versie Xcelsius

Business Objects heeft Cx Now, een gratis versie van Crystal Xcelsius, uitgebracht. Cx Now is weliswaar een uitgeklede versie van Xcelsius maar biedt voldoende mogelijkheden om excel-spreadsheets op te leuken tot een gelikte presentatie. Daarnaast biedt het pakket mogelijkheden om eenvoudig interactieve dashboards of what-if scenarios's te maken. Deze kun je exporteren naar word, powerpoint of het web als flash-file.

En er is ook een wedstrijd, de CX Challenge, waarmee 10.000 dollar is te winnen door degene die het mooiste dashboard instuurt.

dinsdag, oktober 10, 2006

Analyses op de Long Tail

De Long Tail is wat mij betreft een van de leukste theorieën van de laatste jaren omdat het laat zien dat internet een oud business paradigma doorbreekt. De regel is dat een fractie van de voorraad verantwoordelijk is voor het merendeel van de verkopen, de meest populaire producten. Maar succesvolle internetbedrijven maken ook 20 tot 40% van hun omzet met niche-producten. De Volkskrant heeft een leuk stuk over de Long Tail (abonnees only) geschreven en Chris Anderson, de bedenker, schrijft er zijn blog mee vol. Ook de wikipedia, zelf een voorbeeld van Long Tail, heeft er natuurlijk een pagina aan gewijd.

Maar hoe kan een bedrijf long tail-producten monitoren en erop anticiperen? Er zijn nog geen tools of methodes voor. Bijna alle BI-tools zijn er juist op gericht om top5-jes te presenteren. En de doorsnee web analyse tool registreert weliswaar de zoekwoorden die tot sitebezoek leiden maar op een lijstje van 1000-en zoekwoorden is het slecht acteren. Suzana Schwartz geeft in een column op Intelligent Enterprise een aanzet.

Mijn aanzet, vervolgens..Ik kan me voorstellen dat een analist op zoek zal moeten gaan naar de zoektermen die leiden tot sitebezoek en in de loop van de tijd populairder blijken te worden. Dit om tijdig aan de vraag naar gerelateerde producten te kunnen voldoen of ze zichtbaarder te maken (hoger in Google) om nog meer bezoek te genereren. Dat betekent: historie van zoektermen bijhouden. Maar dit is een reactieve methode.
Een andere proactievere optie is het monitoren van de buzz via aggregatoren als technorati. Die buzzwoorden zou je moeten kunnen matchen met de eigen producten. De producten die matchen zou je weer als adword kunnen aanbieden.

Een voorbeeld: Een oud romeins fort wordt ontdekt en blogs schrijven erover en er wordt veel op gezocht. De Volkskrant heeft in het verleden veel over de oude romeinen geschreven maar die artikelen zijn diep in het elektronische archief verstopt. Vervolgens zou de Volkskrant die artikelen als adword kunnen aanbieden of kunnen afstoffen (gratis maken). Geen idee of het mogelijk is en of dit proces te automatiseren is.

zondag, oktober 08, 2006

Datakwaliteit van de no-fly list

Prachtig voorbeeld van de gevolgen van slechte datakwaliteit voor de reputatie van een organisatie en voor de privacy van burgers. De 'no-fly list' is een lijst van Homeland Security dat momenteel de namen bevat van 44.000 personen die niet mogen vliegen in of naar een land die de lijst gebruikt.

CBS' 60 Minutes is in het bezit van de lijst en ontdekte dat de lijst, naast al dode terroristen en Sadam Hussein en de Boliviaanse president Morales, algemeen voorkomende namen bevat zoals Gary Smith, Robert Johnson en John Williams. CBS spoorde 12 Robert Johnson's op en die bleken inderdaad allemaal moeite te hebben om aan boord van een vliegtuig te komen.

vrijdag, oktober 06, 2006

Geschiedenis van de Treemap

Ben Shneiderman, vertelt op zijn website over de ontstaansgeschiedenis en evolutie van de treemap, een manier om data te visualiseren. Aardig om te lezen dat de treemap in 1992 uitgevonden is, maar het nog minstens 8 jaar duurt voordat de treemap echt doorbreekt.

Proclarity is een van de eerste BI-tools die de treemap als visualisatiehulpmiddel heeft opgenomen. Op b-eye legt ben shneiderman uit waarom dit een handig hulpmiddel is om snel inzicht te krijgen in grote hoeveelheden data.

Het plaatje is een visualisatie van del.icio.us tags. Voor de liefhebbers: de algoritmes zijn hier te downloaden

history flow

history flow is een tool van de 'collaborative user experience groep' van IBM. Dit is een visualisatie van de geschiedenis van de edities van wikipedia. Hier wordt uitgelegd hoe de visualisatie is opgebouwd.

Learning guide: Business Intelligence

Alles wat je wilde weten over BI, maar te bang was om te vragen:Learning guide: Business intelligence. Een "quick start" in BI met artikelen, best practices, case studies, white papers en advies van experts.

donderdag, oktober 05, 2006

Dresner over de ontwikkelingen in BI

Howard Dresner, ex-Gartner analist en nu chief strategy officer bij Hyperion, heeft in 1989 de term Business Intelligence min of meer uitgevonden. IT-world Canada heeft een interview met hem over de BI-ontwikkelingen van de afgelopen 17 jaar. Waarom de ontwikkelingen in BI zo langzaam zijn gegaan heeft volgens hem niets te maken met technologie maar alles met de cultuur van veel organisaties:

"Second-tier management is concerned about losing their secured information and the ability to position information in the best possible light. Once BI is in place, people can get concerned and reveal hidden agendas. There are no more secrets. The right people have access to what they need."

Herkenbaar lijkt me. Over de komende ontwikkelingen kan ook geen misverstand bestaan:

"BPM is the next big thing. It's sort of what BI is growing up to become. Data quality matters, it's tied to operational planning."

Er staan nog een paar aardige quotes in het interview.

Digg Realtime datavisualisatie

Een knappe datavisualisatie van digg, een site voor burgerjournalisten en misschien wel een nieuwe vorm van BI: Burger Intelligence.

De verticale balk visualiseert hoe vaak een verhaal in een bepaalde gedigged is. De kleur zegt iets over de algemene populariteit. Een nieuwe ´digg´ valt als een blokje naar beneden. De informatie is realtime.