Data zoekt nieuw baasje

Je kent ze wel, die mappen op je computer waar je al jaren niet naar gekeken hebt. Niet dat je er bewust niet meer inkijkt, maar ‘t verdwijnt gewoon met de tijd en heel af en toe kom je misschien nog weer eens iets tegen maar het meeste zal nooit meer aan de oppervlakte verschijnen. Misschien nog wel het best te vergelijken met een rommelzolder. Je tekeningen van de kleuterschool in een grote doos, oude brieven van vroeger, bewaarde concertkaartjes, fotoalbums… Allemaal herinneringen uit een ver verleden, een tijd die je achter je ligt en waar niemand behalve jijzelf hooguit om nostalgische redenen nog iets aan hebt, toch? Of zou het misschien nog eens van pas kunnen komen?

(blog:2008:03:datahond.gif?550 Datahond tekening door Kris Kobes)

Met de komst van het internet lijkt het wel of er een informatieverslaving en een algemene data-deel-drang is ontstaan. Digitale data kan gedeeld worden dus wórdt het ook gedeeld. Veel mensen delen al foto’s op Flickr [] of PicasaWeb []. Bloggers houden weblogs bij. Veel mensen op Twitter [] tweeten tientallen berichten per dag, via Hyves [], Facebook [] en Myspace [] leg je contact met oude bekenden en wissel je roddels uit. Veel mensen hebben eigen filmpjes op YouTube staan, je kunt agenda delen via Google Calender [] en voor je professionele leven is natuurlijk nog LinkedIn [] zodat je toekomstige werkgever wel precies dat beeld van je krijgt dat jij wil geven over jezelf. De gegevens die we op al deze plekken met elkaar delen zijn heel selectief door onszelf online geplaatst. Je hebt even goed wat tijd uitgetrokken om bewust een bericht op je weblog te plaatsen, je hebt een mooie selectie vakantiefoto’s op Flickr gezet of bent een paar uur hard aan het monteren geweest om vervolgens een filmpje op YouTube te zetten. Kortom je hebt er behoorlijk wat tijd en moeite ingestoken om anderen te laten zien wat jou bezig houdt en hiermee wil je een bepaalde indruk van jezelf achter laten in je sociale netwerk. De succesvolle sociale netwerken die je op internet ziet ontstaan lijken allemaal een gedeelde eigenschap te bevatten namelijk dat er altijd een ‘social object’ centraal staat binnen de groep waarover gecommuniceerd wordt, aldus Jyri Engeström de oprichter van Jaiku []. Bij LastFM staat muziek centraal, bij Flickr geldt dat voor foto’s en bij YouTube voor filmpjes.

Met de huidige technologie is het in principe nu mogelijk om letterlijk iedere bit aan data te delen met vrienden, familie of zelfs met volslagen onbekenden. Er hoeft geen seconde van je leven voorbij te gaan die niet gedeeld wordt. Er zijn mensen die nu al rondlopen met camera’s om hun nek die automatisch 2000 foto’s per dag maken []. Anderen weer houden audiostreams bij [] van al hun conversaties. Er bestaan zelfs Blogjects [], objecten die je altijd bij je draagt en die automatisch data over jou delen met de wereld. Je schoen kan zo’n blogject zijn bijvoorbeeld en bijhouden hoeveel stappen je iedere dag zet en dit automatisch voor je op je weblog posten. Er zullen ongetwijfeld mensen zijn die hun hartslag of bloeddruk bloggen en zelf scan ik regelmatig mijn kassabonnen in of de verpakking van mijn magnetronmaaltijden en zet dit op mijn blog. Verder kun je heel gemakkelijk door je telefoon of GPS bij laten houden op welke plekken je die dag allemaal bent geweest en dat kan dan weer geupload worden naar bijvoorbeeld Google Maps []. Als je computer aan staat en je hebt de juiste programma’s geïnstalleerd hoef je niet eens iets te doen om exact een beeld te geven van bijvoorbeeld je muzieksmaak, je surfgedrag en welke software je gebruik. Nog niet zo lang geleden noemden we dat soort programma’s Spyware, tegenwoordig heet het Social Networking. Services zoals LastFM [], Wakoopa [], Slife [], ControlC [] om er maar een paar te noemen kijken gratis met je mee en zetten de sporen van je digitale gedrag direct online voor vrienden of onbekenden.

Nu zou je denken dat door al deze bestaande programma’s het toch heel makkelijk zou moeten zijn om een volledig beeld van jezelf op internet te kunnen vrijgeven waarin mensen alles over je kunnen lezen, horen en bekijken toch? Niet helemaal… Misschien lukt het je maar ik vraag me af of je er dan ook nog een offline leven op kunt nahouden. Een bekend probleem is namelijk dat het onderhouden van al die sociale netwerken nogal veel tijd kosy. Er zijn programma’s die het je heel makkelijk maken, je installeert ze één keer en daarna heb je er geen omkijken meer naar (o.a. LastFM en Wakoopa). Maar om bijvoorbeeld je foto’s, filmpjes en blogposts online te zetten moet je toch echt iets doen en dat kost tijd, veel tijd. Zoveel tijd dat sommige bloggers zelfs bloggen over het feit dat ze zoveel aan het bloggen zijn []. Bij mezelf merk ik dat ik de foto’s die ik maak met m’n digitale camera niet eens allemaal bekijk als ik ze naar m’n computer overzet. Ik neem vaak niet de tijd om ze te selecteren laat staan ze te uploaden. Wat heb je er dan eigenlijk aan om ze te maken?

Als tijd het grootste probleem is dan zou je kunnen zeggen dat het nog makkelijker gemaakt zou moeten worden om onze data te delen. Maar dat niet alleen, ik vind ook dat er een heleboel data nog niet gedeeld wordt die prima gedeeld zou kúnnen worden. Namelijk de data in die mappen waarmee ik dit artikel begon, ‘de verwaarloosde data’. Data van een paar jaar geleden die nooit het licht van het internet gezien heeft en die je zelf ook uit het oog verloren bent. Als ik alleen bij mezelf al kijk: een terrabyte aan foto’s, filmpjes, documenten en geluidsfragmenten, diep verborgen in een genest bestandsysteem. Het is vast zo dat het grootste deel van deze data niet zo geniaal is als hetgeen waarover ik wel hebt geblogd, maar ik denk dat in de meeste gevallen toch tijd de reden is dat het niet online komt. Hoe kan het anders dat van de 15.000 foto’s die ik op mijn computer heb staan er maar 50 op Flickr staan? Niet omdat er maar 50 goeie tussen zaten maar omdat het tijd kost om ze te selecteren en te uploaden. Daarnaast kost het geld als meer dan een x aantal foto’s naar m’n Flickr site wil uploaden. Oftewel, de overige 14.950 foto’s zullen zoals het er nu uit ziet voor altijd onvindbaar blijven en wat dacht je van de foto’s die ik nog ga maken in de nabije toekomst. Hetzelfde geldt voor YouTube. Daar heb ik wel 40 zelfgemaakte filmpjes staan, maar het uploaden kost tijd, er zit een maximum lengte aan van 10 minuten en de beeldkwaliteit is laag. De overige 350 gigabyte aan ruwe film die ik de afgelopen twee jaar met mijn fotocamera gemaakt heb blijft voor ‘eeuwig’ achter op mijn harddisk. Ik wil nog zo graag dat vakantiefilmpje van IJsland monteren en uploaden maar ik kom er maar niet aan toe…

Een ander voorbeeld nu. Pas ben ik twee dagen lang bezig geweest met een moeilijk programmeer probleem. Daar had ik best wel iets over willen posten op m’n blog toen ik het voor het grootste deel had opgelost maar het zou me zeker een uur of anderhalf gekost hebben er op een heldere manier iets over te schrijven. Mijn ruwe aantekeningen in een tekstbestandje en dat ene schetsje gemaakt in Paint zouden daarentegen eigenlijk wel super bruikbaar zijn voor iemand die hetzelfde probleem tegenkomt. Toch zouden de aantekeningen te chaotisch en knullig zijn voor de gemiddelde bezoeker van mijn blog. Ik heb het dus maar niet online gezet. Het is blijven liggen en een paar dagen later was ik alweer met hele andere dingen bezig. Zelf ben ik zelfs al bijna vergeten waar ik allemaal de week ervoor mee bezig was en zelf zou ik ‘t zelfs moeilijk kunnen terugvinden.

Makers van besturingssystemen erkennen het probleem van ondergesneeuwde data en zijn hard bezig om de architectuur van hun bestandssystemen te veranderen zodat bestanden en mappen associatief met elkaar verbonden zullen zijn en niet perse alleen in een boomstructuur zoals in het huidige momenteel. Ook initiatieven als Google Desktop zijn een stap in deze richting en moet het vinden van bestanden op je lokale computer weer makkelijker maken. Er zijn een hoop manieren te bedenken die als alternatief voor de boomstructuur zouden kunnen werken, bijvoorbeeld een tijdlijn. In Mac OS zit deze functie al een tijdje (toch?) en ook Microsoft is al geruime tijd bezig met een researchproject genaamd MyLifeBits waarmee je associatief door je hele collectie aan digitale herinneringen kunt bladeren. Ook makers van mobiele telefoons zoals Nokia brengen software uit zoals Lifelog waarmee je al je mobiele media en de geschiedenis van je belgedrag op een tijdlijn kunnen kunt bekijken en beschrijven. Er wordt duidelijk gewerkt aan initiatieven die er voor moeten zorgen dat je eigen data beter kunt terugvinden en via die programma’s zul je het uiteindelijk ook vast wel makkelijk weer kunnen delen via het web.

Maar wat nou als iedereen echt álles zou delen? Die vraag houdt me erg bezig. Als we onze data handmatig online zetten zijn we allemaal erg selectief. Ik ken tot nu toe geen voorbeelden van mensen die opzettelijk ál hun data delen met de rest van de wereld. Er zijn veel verhalen bekend van vertrouwelijke data die door onzorgvuldigheid of een virus op internet terecht is gekomen en dat heeft vaak vervelende gevolgen voor de persoon in kwestie en diens omgeving. In het boek 5x403 van Lisa Dalhuijzen kun je een kijkje nemen in de levens van vijf verschillende mensen, een gedetailleerd portret gebaseerd op grote hoeveelheden persoonlijke data onbedoeld gedeeld via p2p programma’s. “Het gaat hier bijvoorbeeld om intieme brieven, emails, foto’s, chatgesprekken of scans van paspoorten.” [].

Niet zo’n fijne situatie zou je denken, al je persoonlijke details op internet. Maar… stel nou dat ik het gewoon eens zou proberen zelf? Gewoon alles openzetten en dan kijken wat er gebeurt? Ik kan me het op z’n minst proberen voor te stellen. Tegen welke dingen zou ik aanlopen? Hoeveel procent van mijn data is eigenlijk privé? Welke dingen zijn echt niet bedoeld voor anderen? Wat zijn de risico’s? Wat hebben anderen er aan? Wat levert het mezelf op? Verandert mijn leven als ik een open boek ben? Kan ik volledig transparant leven? Welke dingen wil ik absoluut niet delen en verandert dat over tijd? Om wat voor data gaat het eigenlijk? Hoe zit het met copyright en ander legal issues? Hoe vind ik dat mijn data aangeboden zou moeten worden aan anderen, ruw via zoekmachines of meer episodisch en associatief? Voor wie is het interessanter: voor vrienden of onbekenden?

Stel nou dat ik alles zou delen behalve de dingen waarbij ik duidelijk aangeef dat die privé moeten blijven. Net als de discussie over standaard orgaandonor worden waarbij automatisch donor wordt tenzij je expliciet aangeeft dat niet te willen. Wat mij betreft zou het zo automatisch mogelijk moeten gaan, ‘data donor by default’ met wel de mogelijkheid bepaalde digitale data-organen niet te willen afstaan.

Ik zou in mijn eentje dus zo ineens 800 Gigabyte aan data gaan delen, dat is ongeveer 2000x zoveel als ik nu doe. Laat er een hoop ruis tussen zitten waar niemand iets heeft, maar ik weet zeker dat het er ook vol zit met juweeltjes die als ik het niet doe nooit meer boven zullen komen. Een hoop waarvan ikzelf tenminste denk dat het anderen van pas zou kunnen komen: kennis, inspiratie, materiaal, hints richting bepaalde oplossingen en waarschijnlijk ook een hoop vermaak en natuurlijk de mogelijkheid tot gewoon lekker rond te neuzen.

Maar stel nou dat iedereen het zou doen? Dat iedereen z’n data standaard zou aanbieden en alleen de privé-data weg filtert. Zou dan het internet daarvan 2000x zo groot worden als nu? Wat zouden de voordelen zijn als het die kant op zou gaan? In ieder geval neemt de hoeveelheid vindbare informatie op internet neemt er van toe mits algoritmes uit de ruis de nuttige data kunnen filteren. Deze nieuwe data kan oud of juist heel nieuw zijn. Er staat een hoop data op persoonlijke harddisks die gegenereerd is in de pre-internet periode. Ook zou het vinden van gloednieuwe data inzicht verschaffen met welke dingen de mensheid zich bezig houdt. Dit is sneller en directer dan te wachten tot en of er over gepubliceerd wordt. De kennisoverdracht neemt toe omdat de aanbieder van de kennis minder tot geen moeite hoeft te doen om deze over te dragen. De kans op kruisbestuiving is groter bij het bedenken van nieuwe ideeën. Ook is er een grote kans dat wanneer je ontdekt dat een bepaald probleem al eens eerder is opgelost door iemand, dat je dan geen dubbel werk doet, het hergebruiken van digitaal materiaal dus. Wanneer alle harddisks aangesloten zouden zijn zou je bijna kunnen spreken van een collectief brein. Op basis van profielen die te maken zijn van de data zou je soortgelijke mensen kunnen vinden. Alles wat de mens bezig houdt is binnen handbereik. Het kan statistisch erg interessant zijn om patronen te zoeken binnen de totale bevolking. Afhankelijk van de implementatie zou data van vorige generaties makkelijker bewaard kunnen blijven. Ook zou in beperkte mate de cache van de zoekmachine kunnen weken als een backup-medium.

…… (hier mag nog wel iets tussen) ……

Ik pleit voor een situatie waarin we zoveel mogelijk van onze data kunnen delen op een makkelijke manier die weinig tijd kost, leuk is, sociaal, veilig en legaal. Verwaarloosde data zoekt nieuw baasje. Er is zoveel verwaarloosde data, daar wil ik wat aan doen!

(tag>Afstuderen Text Study)

DISCUSSION