Databikkel: 2007

dinsdag, maart 20, 2007

Datavisualisatie: Second Life versus Croquet

3D-werelden als Second Life hebben een enorme potentie om informatie op een geheel nieuwe wijze te presenteren. De persconferentie van een jaarverslag in een 3D-wereld zou bijvoorbeeld gedaan kunnen worden als een virtuele rondleiding langs een aantal tentoongestelde grafieken.

Voor business intelligence biedt zo'n wereld ongekende mogelijkheden om data te visualiseren. Bijvoorbeeld door met data een landschap te ontwerpen waarin data-analisten vrij rond kunnen zwerven om allerlei verbanden te zoeken.

Maar het is momenteel al een hele kunst om een presentatie in second life te geven met powerpoint. En de scripttaal van second life lijkt niet heel geschikt om echt spectaculaire data visualisaties te bouwen. Second life is gewoon niet gebouwd met dat doel voor ogen. Hoewel er hier en daar toch mooie data visualisaties zijn te vinden, zoals realtime visualisatie van het weer en dit model om complexe informatie weer te geven.

Croquet is een 3d-wereld die wel specifiek ontworpen is voor data visualisatie, virtueel leren en voor probleem oplossende omgevingen. Daarnaast is het niet opgezet als een groot monolithisch systeem als second life, maar als een verzameling losse werelden die eventueel aan elkaar te knopen zijn, waardoor die gegevens goed af te schermen zijn voor niet-bevoegden.

Bovendien is Croquet open source en gebouwd met squeak, een smalltalk implementatie. En die omgeving lijkt wel krachtig genoeg om - over niet al te lange tijd - prachtige datalandschappen te ontwerpen als virtueel bi-landschap-architect.

maandag, maart 19, 2007

Google koopt Trendanalyzer

Google's doel om 's werelds informatie te ontsluiten en universeel beschikbaar en bruikbaar te maken, is weer een stapje dichterbij door de aanschaf van Trendanalyzer, het datavisualisatie tool van de Gapminder foundation.

In het officepakket van google ontbreekt nog een presentatietool en een aangepaste versie van trendanalyzer zou daar uitstekend geschikt voor zijn. Of zijn het Google's eerste voorzichtige schreden in BI-land?

dinsdag, maart 13, 2007

Swift en de privacy van eu-burgers

NRC Handelsblad vraagt zich, vanwege de swift-zaak, af hoe groot de greep van de Amerikaanse overheid is op privacy gevoelige data van Europese burgers. Hieronder een overzicht van deze case.

Swift is een Belgische organisatie die in het geniep maar met medeweten van de Europese Centrale Bank financiële gegevens van o.a. eu burgers doorspeelde naar het Amerikaanse ministerie van financiën om financiële sporen van terroristen op te sporen.

De New York Times onthulde deze privacyschending van Europese burgers vorig jaar juni en de Europese commissie zou een einde maken aan de toegang van de amerikanen tot het swiftsysteem.

Maar volgens de NRC hebben de Amerikanen nog steeds toegang tot onze gegevens. Volgens tweakers zijn de bancaire transacties toegankelijk omdat het datacentrum van Swift in de VS staat en daardoor onder de Amerikaanse wet valt. Op de swift-site legt Swift haar rol in deze zaak uit.

Deze zaak is in mijn ogen een sprekend voorbeeld van hoe Europa afglijdt naar een bewakingsstaat. Ik vraag me daarom wel eens af in hoeverre IT-ers en in het bijzonder data warehouse specialisten zich ervan bewust zijn in hoeverre ze daar aan meewerken.

maandag, maart 12, 2007

Nationaal datawarehouse

Opvallend genoeg heeft vorige week het nationaal datawarehouse de Nederlandse pers gehaald. Rtl4 had zelfs een filmpje over het NDW. En dat voor een data warehouse dat nog gebouwd moet worden want de aanbesteding gaat van de zomer van start.

Het doel van het ndw is de filedruk te verminderen door gegevens te verzamelen en te publiceren over de infrastructuur en het actuele verkeer. Momenteel is de verkeersinformatie niet actueel en volledig omdat de gegevens uit de vele verkeerssystemen niet goed op elkaar zijn afgestemd.

Gedetailleerde informatie over o.a de architectuur en de visie van het nationaal data warehouse is hier te vinden.

vrijdag, februari 23, 2007

Data mashups platformen voor bi

Getriggerd door mijn eigen post over mashups, heb ik nog verder gesnuffeld naar enterprise web 2.0 voorbeelden van mashups. Ik heb 2 voorbeelden gevonden: Oracle en Denodo.

Nu blijkt Oracle pas Webcenter suite geïntroduceerd te hebben. Dat is een toolset is om data uit applicaties met web 2.0 technieken - inclusief mashups- te integreren en om users te laten collaboreren via wiki's en weblogs. De user interface die met webcenter is te bouwen wordt hier gedemo-ed. Het enterprise web 2.0 blog is er overigens niet zo over te spreken.

Denodo is een Spaans bedrijf dat zich geheel richt op 'data mashups voor the enterprise'. De denodo data mashup architectuur integreert gestructureerde data uit bedrijfsapplicaties met ongestuctureerde data van het web of uit interne bronnen. De mashup is de plek waar die data samenkomt. De kracht van Denodo zit ook gedeeltelijk in een techniek om die ongestructureerde data te clusteren en/of samen te vatten. Denodo heeft 2 webinars en interview over het platform online staan.

woensdag, februari 21, 2007

BI 2.0: mashups

BI 2.0, niemand weet nog precies waarvoor het staat maar het kan te maken te hebben met ajax, realtime bi, operational bi, web 2.0, enterprise search, soa's of on demand of al deze begrippen. Erik Fransen verzamelt voor dbm ideeën voor een artikel over BI 2.0.

Hier wil ik ingaan op de web 2.0 component van BI 2.0 en dan speciaal mashups. Want een mashup wordt in de wikipedia gedefinieerd als een website of applicatie die data uit verschillende bronnen combineert tot 'een nieuwe ervaring'. En dat riekt verdacht veel naar BI.

Pentaho is een voorbeeld van een BI tool waarmee een mashup is te maken met Googlemaps. Ook Business Objects heeft een mashuptool in de vorm van graphicsmasher maar die is alleen nog maar te bewonderen in het lab.

Het maken van mashups is redelijk ingewikkeld, maar er komt een nieuwe klasse van tools aan waarmee dit een eitje wordt. In SOA for the masses geven Dan Farber en Larry Digna een uitstekend overzicht van deze tools. De meest revolutionaire zijn Teqlo en het net geïntroduceerde Yahoo Pipes.

De uitdaging voor BI-consultants en leveranciers is om die tools voor het maken van mashups ter beschikking te stellen aan de bi-eindgebruikers en wel op zo'n manier dat die mashups beheerbaar blijven. Want dat is met Excel, het mix, mash en mutate tool van het client/server tijdperk niet echt gelukt.

donderdag, februari 15, 2007

Realtime burger intelligence (bi)

Nomos lijkt bijna het ideale dashboard te benaderen. Het dashboard is zo intuïtief dat iedere leek snel door heeft waarover de site gaat. En het is niet eens gebouwd door een bi-ontwikkelaar maar door een webdesignbureau.

Nomos is een vorm van burger intelligence en is een dashboard met 1 meetwaarde, namelijk geluidshinder. De site visualiseert de geluidsmetingen rondom Schiphol. De geluidshinder is per baan, per postcode, per vliegtuig en per meetpost te bekijken en bevat zowel realtime als historische gegevens.

Ter vergelijking is er ook de site Geluidsnet, die ook realtime en historische geluidsgegevens vertoont. Absoluut een mooie weergave van de geluidshinder, maar veel minder intuïtief.

maandag, februari 12, 2007

Enron explorer

Trampoline Systems heeft een 'interessant' product, waarmee je sociale netwerken, expertise en informatiestromen in kaart brengt binnen een bedrijf. De gemiddelde werknemer zit er ongetwijfeld niet op te wachten dat zijn mail wordt afgetapt.

Maar die enorme berg ongestructureerde data uit email, levert - eenmaal gestructureerd - zeer waardevolle informatie op over een bedrijf. Dat wordt geweldig gedemonstreerd aan de hand van de nu openbare mailwisseling binnen de Enron top. Deze is te rangschkken naar onderwerp en persoon. Bovendien is te zien wie met wie communiceerde.

maandag, februari 05, 2007

Een puzzel of een mysterie aanpak

Malcom Gladwell (van Blink en de Tipping Point) schrijft in de New Yorker over een leuk nieuw inzicht, afkomstig van intelligence expert Gregory Treverton: Het verschil tussen puzzels en mysteries.

"Osama bin Laden’s whereabouts are a puzzle. We can’t find him because we don’t have enough information. The key to the puzzle will probably come from someone close to bin Laden, and until we can find that source bin Laden will remain at large."

"The problem of what would happen in Iraq after the toppling of Saddam Hussein was, by contrast, a mystery. It wasn’t a question that had a simple, factual answer. Mysteries require judgments and the assessment of uncertainty, and the hard part is not that we have too little information but that we have too much."

Gladwell beschrijft aan de hand van de van het Enron-schandaal en een verhaal over het geheime superwapen van de nazi's dat een intelligence probleem niet perse opgelost moet worden als een puzzel dwz door meer informatie te verzamelen. Een mysterie-insteek bleek in bovenstaande gevallen succesvoller.

Avinash en de jongens van Juice Analytics hebben de knuppel in het hoenderhok gegooid. Ze vragen zich of we Business Intelligence of web analytics vraagstukken wel als een puzzle moeten oplossen door bv zo veel mogelijk data te verzamelen over klanten. Zou een mysterie-achtige aanpak niet beter werken?

Search in BI

Zijn de BI-spelers voorzichtig wat zoekmogelijkheden in hun oplossingen aan het verwerken. De search spelers pakken het drastische aan en bieden search als BI oplossing aan. Zo introduceren 2 leiders van Gartners 'Information Access Magic Quadrant', een naar eigen zeggen, fundamenteel andere manier om BI te bedrijven.

Fast introduceert het Adaptive Information Warehouse (AIW) dat bestaat uit een data cleansing tool en een data analyse tool, radar, genaamd. Computerworld laat een aantal analisten aan het woord over AIW.

De onderliggende techniek noemen ze bij Fast de Pyramid server, dat wordt gepresenteerd als een alternatief voor kubussen. Zo op het eerste gezicht komt het op mij over, alsof ze BI-software hebben ontwikkeld ipv dat ze hun zoekmachine hebben ingezet voor een BI-oplossing.
Het meaning analytics warehouse van Autonomy lijkt spectaculairder. Dat is een module die informatie uit video, email, database etc indexeert, transformeert en analyseert obv betekenis en relaties. Meer informatie is er nog niet over te vinden.

vrijdag, februari 02, 2007

(G)een theoretische grondslag voor BI

Neil Raden beweert in BI Review dat de huidige BI tools niet zijn gebaseerd op Herbert Simon's theorie van besluitvorming:

"It is work of choosing issues that require attention, setting goals, finding or designing suitable courses of action, and evaluating and choosing among alternative actions. The first three of these activities - fixing agendas, setting goals and designing actions - are usually called problem solving; the last, evaluating and choosing, is usually called decision-making."

Volgens Raden is de assumptie in de BI-wereld dat data leidt naar de beslisfase en dat de probleemfase kan worden overgeslagen.

Mijns inziens valt dat wel mee. Een beetje BI-consultant zal beweren dat BI niet draait om de tooling maar om het inrichten van de plan-do-check-act cyclus van Deming, waar ook een probleemfase in is te vinden. Daarnaast zou je kunnen zeggen dat Business Performance Management, het 'strategische zusje van BI', de probleemfase ondersteunt met strategiemappen en kritische perfomance indicatoren.

Bovendien denk ik dat BI tools juist tekort schieten in de besluitvormingsfase. Er is namlijk geen enkele BI tool dat potentiele alternatieve beslissingen of de gevolgen van bepaalde handelswijzen kan doorrekenen en dus het probleem van de beperkte rationele keuzes oplost.

dinsdag, januari 30, 2007

Collectieve intelligentie met Many Eyes

Naast Swivel en Data360 is er nu een derde platform om datasets via internet te delen en te visualiseren: Many Eyes van het visual Communication Lab van IBM.

"Many Eyes is a bet on the power of human visual intelligence to find patterns. Our goal is to "democratize" visualization and to enable a new social kind of data analysis."

Het idee is dat door data te delen en te bediscussiëren er nieuwe inzichten zullen ontstaan. Een sterk punt tov de andere social data sites is de interactiviteit van de grafieken. Bovendien leggen de makers goed uit wanneer je welke grafiek moet gebruiken.

Google clustert

De vernieuwde search appliance van Google, een machine met googlesoftware voor het zoeken in bedrijfsdocumenten, doet nu ook aan clusteren.

De zoekmachine groepeert automatisch zoekresultaten rondom onderwerpen. (zie bv clusty en topix). Daarnaast is het mogelijk om prioriteit te geven aan zoekresultaten die van bepaalde bronnen afkomstig zijn.

Dat er grote behoefte is aan bedrijfsinterne zoekmachines blijkt wel uit een onderzoek van accenture waaruit blijkt dat middelmanagers meer dan een kwart van hun tijd spenderen aan het zoeken naar informatie en dat de uiteindelijk gevonden informatie ook nog eens waardeloos is (via mf).

dinsdag, januari 09, 2007

Introductie in Datamining

Datamining lijkt onder de naam predictive analytics een comeback te maken. Ik denk onder meer omdat de datamining tools niet meer zo onbetaalbaar zijn, waardoor data mining binnen het bereik is gekomen van de niet-multinationals.

Het is dus tijd om als niet-expert wat dieper in de data mining algoritmes te duiken. Er zijn op het web tientallen introducties in data mining te vinden. Hier is mijn selectie:

Een goed startpunt is an introduction to data mining van Kurt Thearling. Op zijn site staan nog een aantal white papers over data mining technieken die de moeite waard zijn.

De statistical data mining tutorial slides van Andrew Moore . Hij behandelt alle belangrijke algoritmes stuk voor stuk.

Alper Murat heeft een 192 slides tellende introductie in data mining op MBA-niveau. Hij gaat ook wat meer in op de plaats van data mining in een datawarehouse-architectuur

Mijn lievelingsblog Geeking with Greg (de bouwer van het aanbevelingssysteem van Amazon) wijst naar een aantal state-of-the-art datamininglezingen voor het stanford data mining klasje. De slides zijn helaas niet allemaal zelf verklarend, maar geven wel inzicht in moderne (web 2.0) toepassingen van data mining.

maandag, januari 08, 2007

Datapakhuizen en privacy

Privédetectives die een prijslijst hanteren voor het achterhalen van persoonsgegevens en Indiaase callcenters die bereid zijn klantgegevens te verkopen. Dit zijn 2 voorbeelden die Ian Brown aandroeg op 'je leven op internet: datapakhuizen en privacy', een debat van de Consumentenbond en het College bescherming persoonsgegevens (CBP) over de mogelijke risico’s voor consumenten bij het gebruik van persoonlijke diensten op internet, zoals bv Microsoft, Yahoo en Google die momenteel bieden.

Het debat is integraal terug te kijken bij de Balie. En dat is een aanrader omdat naast Ian Brown (hier zijn presentatie), Madeleine McLaggan helder uiteenzet wat de zorgen mbt deze persoonlijke intenetdiensten van het CPB zijn (hier de integrale tekst) en Peter Fleischer, de privacy officer van Google Europa, ingaat op het privacybeleid van Google. Tweakers heeft al uitgebreid verslag gedaan van dit debat. Hieronder kort mijn gedestilleerde conclusies:

woensdag, januari 03, 2007

Data warehousing on ruby rails

Ruby on Rails is een webontwikkelingsraamwerk waarmee je relatief eenvoudig, prachtige webapplicaties kunt bouwen, zoals shopify, odeo en 43things laten zien.

Althans, dat nam ik maar aan, maar je kunt er natuurlijk veel meer mee. Zo is Anthony Eden begonnen met het ontwikkelen van een data warehouse extensie op Ruby.

Active Warehouse is de naam van zijn Rubyforge Project. Het is in december 2006 gestart en het project is nog in de 0.1 fase. Liefhebbers kunnen aanhaken want het project zoekt nog 3 ontwikkelaars. Een eerste versie van een ETL-tool is al gebouwd.

dinsdag, januari 02, 2007

Talend, open source ETL

Het Franse Talend presenteert zich als het open source ETL alternatief voor de (te) dure tools als Informatica en consorten.

Of Talend dat waar kan maken zal de komende jaren moeten blijken, want de grote ETL leveranciers transformeren hun tools naar Data Integratie hulpmiddelen waar SOA een grote rol speelt. Die web services schijnen er aan te komen. Daarnaast heeft Talend heeft nog een aantal andere onderscheidende kenmerken:

De business modeler. Met Talend studio ontwerp je eerst logische mappingen - in Talend heet dat eufemistisch een business model - waarachter je de code hangt.

Grid computing. Talend kan workloads over verschillende servers verdelen. Bij het opschalen hoeven er niet perse extra processoren bijgeplaatst worden maar kan er gebruik gemaakt worden van al bestaande servers.

Perl als scripttaal. Niet de meest voor de hand liggende keus, maar Perl is open source en er zijn zo'n 38.000 modules te verkrijgen waarvan een grote gedeelte te maken heeft met datamanipulatie.

dinsdag, maart 20, 2007

maandag, maart 19, 2007

dinsdag, maart 13, 2007

maandag, maart 12, 2007

vrijdag, februari 23, 2007

woensdag, februari 21, 2007

donderdag, februari 15, 2007

maandag, februari 12, 2007

maandag, februari 05, 2007

vrijdag, februari 02, 2007

dinsdag, januari 30, 2007

dinsdag, januari 09, 2007

maandag, januari 08, 2007

woensdag, januari 03, 2007

dinsdag, januari 02, 2007

ab's shared items

Subscribe via email

Zoeken in deze blog

Translate

FeedBurner FeedCount

Links

Over mij

Blogarchief

Labels