donderdag, januari 01, 2009

Een tegenslag voor het analyseren van openbare datasets

De komst van de petabyte age lijkt helaas een kleine vertraging op te lopen. Google's palimpsestproject aka google research datasets is namelijk gekilled voordat het gelanceerd is.

Het idee was dat Google terabytes aan grote wetenschappelijke datasets op haar servers zou verzamelen en distribueren aan een ieder die deze data zou willen analyseren. De wijze van analyseren van wetenschappelijke data (en in een later stadium bedrijfsdata...?) zou hierdoor volgens kenners dramatisch veranderen. In de slideshow zie je een aantal van die wetenschappelijke projecten. .

De naam Google palimpsest is afkomstig van het Archimedes palimpsest project dat een rechtstreekse kopie van een tekst van Archimedes op perkament aan het ontcijferen is. Die tekst is weggekrast en overschreven met gebeden. Het perkament is verknipt en opnieuw ingebonden als gebedenboek.

Het project wil de data openbaar maken om andere wetenschappers erbij te betrekken. Het probleem is de distributie van meer dan een terabyte aan data. In een Googletechtalk komt dit allemaal ter sprake (het boek de archimedes codex is overigens ook zeer de moeite van het lezen waard).



Waarom Google stopt met google research datasets is niet duidelijk. Opvallend is dat Amazon juist het tegenovergestelde doet en heeft aangekondigd om een aantal grote openbare datasets op haar Amazon Web Services platform te hosten. Catch is dat als je een set wilt analyseren, je zult moeten betalen.

Maar het is voor Amazon's elastic cloud natuurlijk ook een mooie showcase voor ondemand datawarehouses en analyses. Er zijn al een aantal softwarebedrijven die zich richten op datawarehousen in de elastische wolk van Amazon. In een andere post daarover meer..

Geen opmerkingen:

Een reactie plaatsen