dinsdag, januari 30, 2007

Collectieve intelligentie met Many Eyes






Naast Swivel en Data360 is er nu een derde platform om datasets via internet te delen en te visualiseren: Many Eyes van het visual Communication Lab van IBM.
"Many Eyes is a bet on the power of human visual intelligence to find patterns. Our goal is to "democratize" visualization and to enable a new social kind of data analysis."

Het idee is dat door data te delen en te bediscussi├źren er nieuwe inzichten zullen ontstaan. Een sterk punt tov de andere social data sites is de interactiviteit van de grafieken. Bovendien leggen de makers goed uit wanneer je welke grafiek moet gebruiken.

Google clustert

google_appl.jpgDe vernieuwde search appliance van Google, een machine met googlesoftware voor het zoeken in bedrijfsdocumenten, doet nu ook aan clusteren.

De zoekmachine groepeert automatisch zoekresultaten rondom onderwerpen. (zie bv clusty en topix). Daarnaast is het mogelijk om prioriteit te geven aan zoekresultaten die van bepaalde bronnen afkomstig zijn.

Dat er grote behoefte is aan bedrijfsinterne zoekmachines blijkt wel uit een onderzoek van accenture waaruit blijkt dat middelmanagers meer dan een kwart van hun tijd spenderen aan het zoeken naar informatie en dat de uiteindelijk gevonden informatie ook nog eens waardeloos is (via mf).

dinsdag, januari 09, 2007

Introductie in Datamining

data_mining.jpgDatamining lijkt onder de naam predictive analytics een comeback te maken. Ik denk onder meer omdat de datamining tools niet meer zo onbetaalbaar zijn, waardoor data mining binnen het bereik is gekomen van de niet-multinationals.

Het is dus tijd om als niet-expert wat dieper in de data mining algoritmes te duiken. Er zijn op het web tientallen introducties in data mining te vinden. Hier is mijn selectie:

maandag, januari 08, 2007

Datapakhuizen en privacy

hkpcrypt.gifPriv├ędetectives die een prijslijst hanteren voor het achterhalen van persoonsgegevens en Indiaase callcenters die bereid zijn klantgegevens te verkopen. Dit zijn 2 voorbeelden die Ian Brown aandroeg op 'je leven op internet: datapakhuizen en privacy', een debat van de Consumentenbond en het College bescherming persoonsgegevens (CBP) over de mogelijke risico’s voor consumenten bij het gebruik van persoonlijke diensten op internet, zoals bv Microsoft, Yahoo en Google die momenteel bieden.

Het debat is integraal terug te kijken bij de Balie. En dat is een aanrader omdat naast Ian Brown (hier zijn presentatie), Madeleine McLaggan helder uiteenzet wat de zorgen mbt deze persoonlijke intenetdiensten van het CPB zijn (hier de integrale tekst) en Peter Fleischer, de privacy officer van Google Europa, ingaat op het privacybeleid van Google. Tweakers heeft al uitgebreid verslag gedaan van dit debat. Hieronder kort mijn gedestilleerde conclusies:

woensdag, januari 03, 2007

Data warehousing on ruby rails

rails.pngRuby on Rails is een webontwikkelingsraamwerk waarmee je relatief eenvoudig, prachtige webapplicaties kunt bouwen, zoals shopify, odeo en 43things laten zien.

Althans, dat nam ik maar aan, maar je kunt er natuurlijk veel meer mee. Zo is Anthony Eden begonnen met het ontwikkelen van een data warehouse extensie op Ruby.

Active Warehouse is de naam van zijn Rubyforge Project. Het is in december 2006 gestart en het project is nog in de 0.1 fase. Liefhebbers kunnen aanhaken want het project zoekt nog 3 ontwikkelaars. Een eerste versie van een ETL-tool is al gebouwd.

dinsdag, januari 02, 2007

Talend, open source ETL

talend.jpgHet Franse Talend presenteert zich als het open source ETL alternatief voor de (te) dure tools als Informatica en consorten.

Of Talend dat waar kan maken zal de komende jaren moeten blijken, want de grote ETL leveranciers transformeren hun tools naar Data Integratie hulpmiddelen waar SOA een grote rol speelt. Die web services schijnen er aan te komen. Daarnaast heeft Talend heeft nog een aantal andere onderscheidende kenmerken:

  • De business modeler. Met Talend studio ontwerp je eerst logische mappingen - in Talend heet dat eufemistisch een business model - waarachter je de code hangt.

  • Grid computing. Talend kan workloads over verschillende servers verdelen. Bij het opschalen hoeven er niet perse extra processoren bijgeplaatst worden maar kan er gebruik gemaakt worden van al bestaande servers.

  • Perl als scripttaal. Niet de meest voor de hand liggende keus, maar Perl is open source en er zijn zo'n 38.000 modules te verkrijgen waarvan een grote gedeelte te maken heeft met datamanipulatie.