Cloudcomputing belooft onbeperkte, schaalbare en betaalbare rekencapaciteit en opslag. Dat lijkt een ideaal platform voor een datawarehouse-omgeving. Nu
Amazon's Web Service Elastic Compute Cloud (EC2) naar Europa komt,
Google's App Engine al weer een aantal maanden in beta is en zelfs microsoft met
azure de pc aan het verlaten is, is het hoog tijd om eens kleine verkenning te maken van de analytische capaciteiten van
Amazon Web Services, App Engine en Azure. Temeer omdat 2 cloudomgevingen een eigen dbms hebben die enorme hoeveelheden data kunnen verwerken. Voor Amazon is dat
SimpleDB en Google heeft zijn
Bigtable. In deze post de datawarehouses databases voor Amazon Web Services (AWS) in vogelvlucht. In een volgende post App Engine, Bigtable en de integratietools voor AWS.
Bij AWS betaal je alleen voor het gebruik van processortijd en opslag. Een complete machine huren zoals bij hostingdiensten gebruikelijk is, is niet nodig. Belangrijk om te weten is dat in de gebruikskosten van AWS de licentiekosten al zijn meegenomen.
Databases in de cloud.Je hebt standaard de keuze uit
windows server 2003, verschillende smaken linux en een aantal databases. EC2 ondersteunt
Oracle 11g en de Oracle express edition,
Mysql,
sqlserver standard en express edition en de zelf ontwikkelde
simpleDB. Dus zo'n virtuele machine is in principe te richten met alle dwh-componenten van die dbms-en. En dit biedt in potentie de mogelijkheid om data warehouses als managed service aan te bieden, iets wat startup
Kognitio al een tijdje probeert.
OracleOracle biedt via
het Oracle Cloud Computing Center ondersteuning van Oracle producten, maar Oracle's marketingmachine meldt nog niets over een virtuele voorgeconfigureerde ami (amazon machine image) die geoptimaliseerd is voor datawarehousing. Eigenlijk wil je op AWS een soort
Oracle Optimized Warehouse.
Full360 is alvast in deel van het gat dat Oracle laat, gesprongen en biedt hostingoplossingen op EC2 voor Oracle EPM (voorheen Essbase). Hun avonturen op EC2 zijn te volgen via het
full360-blog. Opvallend is dat Oracle los van AWS
een on demand omgeving aanbiedt voor EPM.
SqlserverSinds oktober 2008 zijn
windows server en Sql Server beta op EC2. Microsoft biedt nog geen extra ondersteuning voor EC2 en is itt
Oracle en Sun-Mysql geen partner van AWS. De publieke ami's (amazon machine images) voor Windows Server 2003 en Sqlserver 2005 standard edition bevat
GEEN bi development studio. Je kunt natuurlijk met een eigen licentie een installatie uitvoeren, maar dat doet het kostenvoordeel van AWS weer teniet.
MysqlMysql ondersteunt op EC2 de enterprise edition. Dat is dus de betaalde versie en niet de community versie. Bij Mysql staan nog geen expliciete vermeldingen van dwh-toepassingenen in de cloud. Mysql blijft volgens
Gartner's MQ voor dwh dbms-en van december 2008 ook steken in het nicheplayerkwadrant.
VerticaEn dan er is ook nog een andere datawarehouse nichespeler, de kolom geörienteerde BI database Vertica die een
een ondemand versie op EC2 heeft.
simpleDBEen uniek sellingpoint van AWS is de database
simpledB. SimpleDB is
geen relationele database, maar
SimpleDB is supersnel, kan grote datasets aan en is schaalbaar.
An Amazon SimpleDB domain is like a worksheet, items are like rows of data, attributes are like column headers, and values are the data entered in each of the cells. However unlike a spreadsheet, Amazon SimpleDB allows for multiple values to be associated with each “cell” (e.g., for item “123,” the attribute “color” can have both value “blue” and value “red”). Additionally, in Amazon SimpleDB, each item can have its own unique set of associated attributes (e.g., item “123” might have attributes “description” and “color” whereas item “789” has attributes “description,” “color” and “material”).
De querytaal wijkt daarom ook af van SQL, hoewel er ook een
SQL-achtige SELECT api aangekondigd is. Hier staat een
eenvoudige uitleg over de simpleDb-querytaal. Niet iedereen is het er over eens dat
SimpleDB zo'n goed idee is. Niet zo verwonderlijk want s simpleDB is nog Beta. Een sort op queryresultaten is bv
later toegevoegd en er ontbreken (nog) aggregatiefuncties zoals 'group by' en 'sum'. Anderen zien
simpleDB als een baanbrekende nieuwe technologie.
MapreduceEC2 heeft nog een interessante optie voor omvangrijke data-analyses, want het maakt gebruik van
Hadoop, de opensource tegenhanger van Google's
mapreduce.
Greenplum hypet zijn implementatie van mapreduce als een belangrijk verkoopargument. Hadoop is simpel gezegd een manier om grote datasets parallel te verwerken. Door het elastisch kunnen schalen van het aantal processoren verloopt Hadoop erg efficiënt op AWS.
ConclusiesVolgens mij valt wel te concluderen dat AWS zeer veelbelovend is als data warehouseomgeving. Het biedt kleine bi-spelers bv de mogelijkheid om dwh-diensten aan te bieden zonder zelf een kostbaar serverpark met dure sofwarelicenties te moeten beheren. Maar de huidige software voor AWS is nog niet rijp genoeg voor serieuze datawarehouse toepassingen.
Bij de huidige sqlserver aanbiedingen van AWS missen bv. de datawarehousefuncties. Zelfs het verkoopapparaat van Oracle maakt nog geen claims en simpleDB is technologisch nog niet geschikt voor dwh-analyses. Maar de ontwikkelingen gaan razendsnel en het zal waarschijnlijk langer duren om bedrijven ervan te overtuigen om strategische bedrijfsdata extern te hosten. En er is nog een ander probleem: hoe krijg je die data naar AWS ge-etled. Daarover meer in een van de volgende posts.