dinsdag, februari 17, 2009

Dataintegratie op AWS



Mijn vorige post ging over dbms-en voor datawarehouses op EC2. Ik was blijven steken bij de vraag, hoe je de gegevens naar EC2 kunt transporteren en daar kunt integreren. Ik heb een lijstje gemaakt van dataintegratietools die iets met AWS doen.

Wat opvalt is dat het bijna allemaal open source dataintegratietools zijn. Niet heel verwonderlijk want het huidige businessmodel voor commerciƫle software past 'niet helemaal' bij het cloudconcept i.e. alleen betalen voor het gebruik.

Open source is in principe gratis en daardoor lijken cloudcomputing en open source een symbiotisch droomkoppel. De huidige crisis kan zelfs als katalysator werken voor een snelle acceptatie van deze combi. Al zijn er volgens UC berkeley nog een aantal belangrijke obstakels voor cloudcomputing en zijn er volgens Informationweek nog 6 dingen die SAAS moet doen om in 2009 als volwaardige technologie geaccepteerd te worden.

De dataintegratietools voor AWS.

Logixml
logixml is een BI platform met een etl-component dat connecteert naar Simpledb, Salesforce en willekeurig andere webservices. Het is de enige niet opensource tool.

Apatar
Apatar is opensource dataintegratie software met connectoren voor SAP, siebel, Sugarcm en AWS.

Snaplogic

Open source dataintegratietool voor SAAS applicaties, Snaplogic, is geoptimaliseerd voor AWS.

Pentaho
Maar Pentaho is volgens mij het meest ver met AWS. Het blog VM Datamining heeft een serie posts over de installatie van Pentaho Data Integration oftewel kettle op EC2. Matt Casters, de architect van Kettle beschrijft op zijn blog dat Kettle zeer overtuigend schaalt op EC2 en stelt dat AWS ongekende mogelijkheden biedt tegen zeer lage kosten.

Bovendien komt er blijkbaar binnenkort een AMI (Amazon Machine Image) voor Pentaho Data Integration. Er is is zelfs al op AWS een datawarehouse gebouwd met Mysql en Pentaho. Zo onrijp, zoals ik in mijn vorige post stelde, is AWS als dwhplatform dus ook weer niet.