Databikkel

zondag, maart 01, 2009

De meest sexy job voor de komende 10 jaar

Het is dan wel niet de beste baan ter wereld, maar statisticus is de komende 10 jaar de meest sexy baan ter wereld. Althans volgens Hal Varian, de chief economist van Google (en auteur van Information Rules één van de beste boeken over online strategieën) in een video interview met de McKinsey Quarterly:

"People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s? The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it."

En nog een aardige quote over een skillset die managers moeten hebben in organisaties waar informatie geen schaars goed meer is:

"Managers need to be able to access and understand the data themselves.[...] In the old organization, you had to have this whole army of people digesting information to be able to feed it to the decision maker at the top. But that’s not the way it works anymore: the information can be available across the ranks, to everyone in the organization. And what you need to ensure is that people have access to the data they need to make their day-to-day decisions."

De Mckinsey Quarterly heeft overigens nog meer video interviews die zeer de moeite van het kijken waard zijn. BV Dit interview met de CEO van Google, Eric Schmidt, waarin hij o.a. stelt dat de Long Tail niet de plek is waar bedrijven de meeste omzet maken.

dinsdag, februari 17, 2009

Dataintegratie op AWS

Mijn vorige post ging over dbms-en voor datawarehouses op EC2. Ik was blijven steken bij de vraag, hoe je de gegevens naar EC2 kunt transporteren en daar kunt integreren. Ik heb een lijstje gemaakt van dataintegratietools die iets met AWS doen.

Wat opvalt is dat het bijna allemaal open source dataintegratietools zijn. Niet heel verwonderlijk want het huidige businessmodel voor commerciële software past 'niet helemaal' bij het cloudconcept i.e. alleen betalen voor het gebruik.

Open source is in principe gratis en daardoor lijken cloudcomputing en open source een symbiotisch droomkoppel. De huidige crisis kan zelfs als katalysator werken voor een snelle acceptatie van deze combi. Al zijn er volgens UC berkeley nog een aantal belangrijke obstakels voor cloudcomputing en zijn er volgens Informationweek nog 6 dingen die SAAS moet doen om in 2009 als volwaardige technologie geaccepteerd te worden.

De dataintegratietools voor AWS.

Logixml
logixml is een BI platform met een etl-component dat connecteert naar Simpledb, Salesforce en willekeurig andere webservices. Het is de enige niet opensource tool.

Apatar
Apatar is opensource dataintegratie software met connectoren voor SAP, siebel, Sugarcm en AWS.

Snaplogic
Open source dataintegratietool voor SAAS applicaties, Snaplogic, is geoptimaliseerd voor AWS.

Pentaho
Maar Pentaho is volgens mij het meest ver met AWS. Het blog VM Datamining heeft een serie posts over de installatie van Pentaho Data Integration oftewel kettle op EC2. Matt Casters, de architect van Kettle beschrijft op zijn blog dat Kettle zeer overtuigend schaalt op EC2 en stelt dat AWS ongekende mogelijkheden biedt tegen zeer lage kosten.

Bovendien komt er blijkbaar binnenkort een AMI (Amazon Machine Image) voor Pentaho Data Integration. Er is is zelfs al op AWS een datawarehouse gebouwd met Mysql en Pentaho. Zo onrijp, zoals ik in mijn vorige post stelde, is AWS als dwhplatform dus ook weer niet.

woensdag, januari 21, 2009

Datawarehousing op AWS: simpleDB en ander dbmsen

Cloudcomputing belooft onbeperkte, schaalbare en betaalbare rekencapaciteit en opslag. Dat lijkt een ideaal platform voor een datawarehouse-omgeving. Nu Amazon's Web Service Elastic Compute Cloud (EC2) naar Europa komt, Google's App Engine al weer een aantal maanden in beta is en zelfs microsoft met azure de pc aan het verlaten is, is het hoog tijd om eens kleine verkenning te maken van de analytische capaciteiten van Amazon Web Services, App Engine en Azure. Temeer omdat 2 cloudomgevingen een eigen dbms hebben die enorme hoeveelheden data kunnen verwerken. Voor Amazon is dat SimpleDB en Google heeft zijn Bigtable. In deze post de datawarehouses databases voor Amazon Web Services (AWS) in vogelvlucht. In een volgende post App Engine, Bigtable en de integratietools voor AWS.

Bij AWS betaal je alleen voor het gebruik van processortijd en opslag. Een complete machine huren zoals bij hostingdiensten gebruikelijk is, is niet nodig. Belangrijk om te weten is dat in de gebruikskosten van AWS de licentiekosten al zijn meegenomen.

Databases in de cloud.
Je hebt standaard de keuze uit windows server 2003, verschillende smaken linux en een aantal databases. EC2 ondersteunt Oracle 11g en de Oracle express edition, Mysql, sqlserver standard en express edition en de zelf ontwikkelde simpleDB. Dus zo'n virtuele machine is in principe te richten met alle dwh-componenten van die dbms-en. En dit biedt in potentie de mogelijkheid om data warehouses als managed service aan te bieden, iets wat startup Kognitio al een tijdje probeert.

Oracle
Oracle biedt via het Oracle Cloud Computing Center ondersteuning van Oracle producten, maar Oracle's marketingmachine meldt nog niets over een virtuele voorgeconfigureerde ami (amazon machine image) die geoptimaliseerd is voor datawarehousing. Eigenlijk wil je op AWS een soort Oracle Optimized Warehouse.

"Oracle in the Cloud" AWS Webinar

View SlideShare presentation or Upload your own. (tags: amazon aws)

Full360 is alvast in deel van het gat dat Oracle laat, gesprongen en biedt hostingoplossingen op EC2 voor Oracle EPM (voorheen Essbase). Hun avonturen op EC2 zijn te volgen via het full360-blog. Opvallend is dat Oracle los van AWS een on demand omgeving aanbiedt voor EPM.

Sqlserver
Sinds oktober 2008 zijn windows server en Sql Server beta op EC2. Microsoft biedt nog geen extra ondersteuning voor EC2 en is itt Oracle en Sun-Mysql geen partner van AWS. De publieke ami's (amazon machine images) voor Windows Server 2003 en Sqlserver 2005 standard edition bevat GEEN bi development studio. Je kunt natuurlijk met een eigen licentie een installatie uitvoeren, maar dat doet het kostenvoordeel van AWS weer teniet.

Mysql
Mysql ondersteunt op EC2 de enterprise edition. Dat is dus de betaalde versie en niet de community versie. Bij Mysql staan nog geen expliciete vermeldingen van dwh-toepassingenen in de cloud. Mysql blijft volgens Gartner's MQ voor dwh dbms-en van december 2008 ook steken in het nicheplayerkwadrant.

Vertica
En dan er is ook nog een andere datawarehouse nichespeler, de kolom geörienteerde BI database Vertica die een een ondemand versie op EC2 heeft.

Vertica and Amazon Web Services

View SlideShare presentation or Upload your own. (tags: aws vertica)

simpleDB
Een uniek sellingpoint van AWS is de database simpledB. SimpleDB is geen relationele database, maar SimpleDB is supersnel, kan grote datasets aan en is schaalbaar.

An Amazon SimpleDB domain is like a worksheet, items are like rows of data, attributes are like column headers, and values are the data entered in each of the cells. However unlike a spreadsheet, Amazon SimpleDB allows for multiple values to be associated with each “cell” (e.g., for item “123,” the attribute “color” can have both value “blue” and value “red”). Additionally, in Amazon SimpleDB, each item can have its own unique set of associated attributes (e.g., item “123” might have attributes “description” and “color” whereas item “789” has attributes “description,” “color” and “material”).

De querytaal wijkt daarom ook af van SQL, hoewel er ook een SQL-achtige SELECT api aangekondigd is. Hier staat een eenvoudige uitleg over de simpleDb-querytaal. Niet iedereen is het er over eens dat SimpleDB zo'n goed idee is. Niet zo verwonderlijk want s simpleDB is nog Beta. Een sort op queryresultaten is bv later toegevoegd en er ontbreken (nog) aggregatiefuncties zoals 'group by' en 'sum'. Anderen zien simpleDB als een baanbrekende nieuwe technologie.

Mapreduce
EC2 heeft nog een interessante optie voor omvangrijke data-analyses, want het maakt gebruik van Hadoop, de opensource tegenhanger van Google's mapreduce. Greenplum hypet zijn implementatie van mapreduce als een belangrijk verkoopargument. Hadoop is simpel gezegd een manier om grote datasets parallel te verwerken. Door het elastisch kunnen schalen van het aantal processoren verloopt Hadoop erg efficiënt op AWS.

Conclusies
Volgens mij valt wel te concluderen dat AWS zeer veelbelovend is als data warehouseomgeving. Het biedt kleine bi-spelers bv de mogelijkheid om dwh-diensten aan te bieden zonder zelf een kostbaar serverpark met dure sofwarelicenties te moeten beheren. Maar de huidige software voor AWS is nog niet rijp genoeg voor serieuze datawarehouse toepassingen.

Bij de huidige sqlserver aanbiedingen van AWS missen bv. de datawarehousefuncties. Zelfs het verkoopapparaat van Oracle maakt nog geen claims en simpleDB is technologisch nog niet geschikt voor dwh-analyses. Maar de ontwikkelingen gaan razendsnel en het zal waarschijnlijk langer duren om bedrijven ervan te overtuigen om strategische bedrijfsdata extern te hosten. En er is nog een ander probleem: hoe krijg je die data naar AWS ge-etled. Daarover meer in een van de volgende posts.

donderdag, januari 01, 2009

Een tegenslag voor het analyseren van openbare datasets

De komst van de petabyte age lijkt helaas een kleine vertraging op te lopen. Google's palimpsestproject aka google research datasets is namelijk gekilled voordat het gelanceerd is.

Het idee was dat Google terabytes aan grote wetenschappelijke datasets op haar servers zou verzamelen en distribueren aan een ieder die deze data zou willen analyseren. De wijze van analyseren van wetenschappelijke data (en in een later stadium bedrijfsdata...?) zou hierdoor volgens kenners dramatisch veranderen. In de slideshow zie je een aantal van die wetenschappelijke projecten.

| View | Upload your own

.

De naam Google palimpsest is afkomstig van het Archimedes palimpsest project dat een rechtstreekse kopie van een tekst van Archimedes op perkament aan het ontcijferen is. Die tekst is weggekrast en overschreven met gebeden. Het perkament is verknipt en opnieuw ingebonden als gebedenboek.

Het project wil de data openbaar maken om andere wetenschappers erbij te betrekken. Het probleem is de distributie van meer dan een terabyte aan data. In een Googletechtalk komt dit allemaal ter sprake (het boek de archimedes codex is overigens ook zeer de moeite van het lezen waard).

Waarom Google stopt met google research datasets is niet duidelijk. Opvallend is dat Amazon juist het tegenovergestelde doet en heeft aangekondigd om een aantal grote openbare datasets op haar Amazon Web Services platform te hosten. Catch is dat als je een set wilt analyseren, je zult moeten betalen.

Maar het is voor Amazon's elastic cloud natuurlijk ook een mooie showcase voor ondemand datawarehouses en analyses. Er zijn al een aantal softwarebedrijven die zich richten op datawarehousen in de elastische wolk van Amazon. In een andere post daarover meer..

zondag, december 28, 2008

Boek: The Numerati

Een criterium voor een goed nonfictie boek is als je na het lezen de wereld (een beetje) anders gaat bekijken. The Numerati van Stephen Baker is zo'n boek.

Numerati zijn personen die via algoritmes op zoek zijn naar patronen in data die het menselijk leven en gedrag beschrijven. Dat klinkt wat vaag, maar aan de hand van 5 rollen maakt hij feilloos duidelijk dat de machines die de Numerati bouwen steeds meer zinnige dingen kunnen beweren over ons gedrag. Die rollen zijn: de werker, de shopper, de stemmer, de blogger, de terrorist, de patiënt en de lover.

Ik zal er een paar heel kort (het blijft een blog) uitlichten.

In 'de werker' beschrijft hij hoe IBM zijn 50.000 werknemers via wiskundige modellen de productiviteit wil verbeteren en het management wil automatiseren.

In 'de stemmer' lees je dat Obama niet alleen vanwege zijn charisma de verkiezingen heeft gewonnen.

In 'de terrorist' wordt duidelijk waarom datamining niet zal werken als middel om terrorisme te voorkomen. Dat zegt ook wat over de realiteitszin van het boek omdat onlangs ook een rapport is verschenen waarin staat dat de anti terroristische datamining programma's van Homeland security niet werken .

En in 'de patient' blijkt dat Intel met sensortechnologie een grote rol wil gaan spelen in de gezondheidszorg. Let maar eens op de nieuwsberichten van Intel.

Het boek is fascinerend vanwege de mogelijkheden die deze algoritmes bieden en tegelijkertijd een waarschuwing tegen het vastleggen van persoonlijke gegevens. Zo voert Baker Jeff Jonas op. Hij is een bekeerd numerator die zijn virtuele privacy frankenstein heeft verkocht aan IBM. Daar is hij nu hoofd entity analysis en ontwikkelt hij nu vooral methoden om persoons- en gedragsgegevens anoniem op te slaan.

Baker is ook een blog gestart over the numerati. Fortune heeft het boek gekozen in zijn top 3 van beste webboeken van 2008.

woensdag, december 10, 2008

rss als annotatie-hulpmiddel in rapportages

Ik ben een groot fan van de grafieken van Google insights for search en finance. Zie bv hoe Google de beurskoers van mijn favoriete aandeel Netezza integreert met belangrijke gebeurtenissen. Dat is toch weer fraai gedaan door de interface ontwerpers van Google.

Ik vroeg me af of het ook mogelijk is zelf dergelijke rapportages te bouwen.
Zo zou je je kunnen voorstellen dat de marketeers van een krant willen weten welke nieuwsfeiten van invloed zijn op de losse verkoop.

Die nieuwsfeiten zijn als rss-feed opvraagbaar en die moet je op een of andere manier verwerken als annotaties bij de verkoopcijfers. Nog beter zou het zijn als je uit Google Analytics als rss-feed de best bekeken artikelen zou kunnen opvragen, om te zien welk nieuwsfeit die dag belangrijk was. Helaas is dat laatste nog niet mogelijk.

Overigens kun je ook heel gemakkelijk bedrijfsinterne nieuwsfeiten vastleggen in de vorm van een weblog, waarin je vastlegt wanneer bv het bronsysteem is gemigreerd. De rss-feed van dat weblog verklaart dan weer de trendbreuk in die ene grafiek.

Google spreadsheets heeft de mogelijkheid om annotaties te maken in de vorm van interactieve time series gadget van Google. Het is ook vrij gemakkelijk een rss-feed met relevant nieuws in google spreadsheets te importeren. Maar voor de koppeling van rapportdata met rss-feeds op basis van datum of onderwerp heeft Google geen kant en klare oplossing.

Ook bij Business Intelligence leveranciers kon ik nog geen commercieel rijpe oplossingen vinden. In het lab van Business Objects staan wel 2 proefopstellingen:

Rss-feed as a universe ontsluit een rss-feed via een Universe waardoor deze gegevens schijnbaar te combineren zijn met andere gegevens.
BI Annotator is een tool voor BOXI en combineert de ongestructureerde text uit een rss-feed met bv de dimensionele data uit een sterschema. Het wordt niet helemaal duidelijk of de tijdsdimensie hierbij een rol speelt.

Eigenlijk moet je de rss-feeds met de andere data integreren in het datawarehouse en moet je dit niet willen oplossen met een BI-tool. Hoe je dit in het dwh moet modelleren is een vraagstuk op zich bv als aparte rss-dimensies of als onderdeel van een andere dimensie of als aparte ster met nieuwsfeiten. Misschien dat ik daar nog wat blogjes aan ga wijden.

Integratie van rss-feeds in rapportages is dus volgens mij met de huidige BI-tools nog niet mogelijk. Misschien dat iemand anders nog wel een oplossing heeft gevonden?

maandag, oktober 06, 2008

Timerime en andere interactieve tijdlijnen

Dankzij de jongens van Timerime, kun je ook zo'n prachtige interactieve tijdlijn bouwen die Google gebruikt om zijn 10-jarige geschiedenis te visualiseren.

De Timerime website is een social media site voor historische gegevens waar communityleden informatie op een tijdlijn creëren, delen, publiceren en vergelijken. Frankwatching heeft een interview met de Nederlandse bedenkers. Ik heb me laten vertellen dat er voor timerime ook veel belangstelling is uit de educatieve hoek. daar kan ik me iets bij voorstellen. Ik heb zelf een world history poster. Een interactieve versie in timerime zou het gevaarte een stuk handelbaarder maken.

Business Objects heeft in zijn labs ook een interactieve tijdlijn met veel visueel geweld, de timewall, als onderdeel van vizserver. Als je zelf iets overzichterlijker tijdlijnen wilt bouwen of wilt demo-en dan kan dat ook met de timeline gadget voor Google spreadsheets. Dit is weer een spinoff van het open source simile timeline project van het MIT. Kijk ook eens naar de andere voorbeelden van simile.

Databikkel

zondag, maart 01, 2009

De meest sexy job voor de komende 10 jaar

dinsdag, februari 17, 2009

Dataintegratie op AWS

woensdag, januari 21, 2009

Datawarehousing op AWS: simpleDB en ander dbmsen

donderdag, januari 01, 2009

Een tegenslag voor het analyseren van openbare datasets

zondag, december 28, 2008

Boek: The Numerati

woensdag, december 10, 2008

rss als annotatie-hulpmiddel in rapportages

maandag, oktober 06, 2008

Timerime en andere interactieve tijdlijnen

ab's shared items

Subscribe via email

Zoeken in deze blog

Translate

FeedBurner FeedCount

Links

Over mij

Blogarchief

Labels