20 mei 2013 om 17:28 uur door Jan Taco te Gussinklo
Big Data
Revolutie
Onbeantwoorde vragen
Het is al jaren geleden. Hoe goed herinner ik mij dat we aan de slag gaan. Bij een zorgverzekeraar. Een gemotiveerd groepje samen met externe experts. Werken met wat we nu Big Data zouden noemen. Niks steekproef… We beschikken over pakweg 1 miljoen “schaderegels”. Een tamelijk compleet bestand. Duidelijk te veel voor een exercitie in Excel. Dit complete bestand hebben we onderworpen aan datamining. De interessante dingen zitten ook in de extremen (van de verdeling volgens Gauss). Waarom gaat een verzekerde in één jaar naar tien verschillende specialismen over het land verspreid? Of gebruiken meerdere mensen misschien dezelfde identiteit? Veel vragen. Helaas is deze exercitie om voor mij onnaspeurlijke redenen plotsklaps gestaakt. Sterker, de hele afdeling wordt opgeheven.
DBC Codering (2007)
Correlaties
Datamining is weer helemaal terug, zeker bij zorgverzekeraars. Er moet zelfs een tandje worden bijgezet volgens de overheid. In het kersverse boek Big Data Revolutie, wordt gesteld dat de tijd van steekproeven een beetje achter ons ligt. N= alles. Dat betekent dat complete bestanden worden geanalyseerd en totaal nieuwe correlaties worden gevonden. Die soms causaliteit zullen betekenen. Daarbij worden algoritmes belangrijk, maar zeker niet alles bepalend. De (soms overstelpende) hoeveelheid data (en dat kunnen ook tekstbestanden zijn) is doorslaggevend, zoals blijkt in de casus Microsoft (pagina 57). Ook het ‘schonen’ wordt minder relevant. Dat daarmee de wereld gaat veranderen is ook voor mij een absolute zekerheid. Advies: dit boek maar eens aanschaffen!
10 december 2012 om 16:10 uur door Jan Taco te Gussinklo
CBS
Big Data
Geovisualisatie van de Datavisualiseerders
Het CBS (Centraal Bureau voor de Statistiek) in Den Haag vormt aanvang 2012 de plaats van samenkomst van een zaal vol datavisualiseerders (of journalisten met affiniteit voor data). Een mooi congres onder de vlag van #datavis12. Sinds ‘big data’ steeds meer beschikbaar komen (‘open data movement’) is er ook een groeiend belang. We leven bovendien in een beeldcultuur en in een oogopslag wordt de boodschap overgebracht. Mits goed uitgewerkt natuurlijk en al dan niet in combinatie met een pakkend verhaal (storytelling).
Geovisualisatie deelnemers. NB. In- en Uitzoomen
Expertise
Op basis van de opgegeven adresgegevens van de deelnemers zou de indruk kunnen worden gewekt dat deze vorm van journalistiek vooral in de Randstad is gelocaliseerd. Dat lijkt ook wel aannemelijk. Natuurlijk ligt het ook voor de hand dat een congres in Den Haag ook vooral door Randstedelingen wordt bezocht. Toch hebben alleen al de CBS datastromen een grote schare volgers, die zich niet alleen in de Randstad ophouden.
9 augustus 2012 om 7:04 uur door Jan Taco te Gussinklo
Volkskrant 9 augustus 2012
Tena beoordeelt incontinente patient (pag.1)
Met strak broekje lekt luier minder (pagina 6)
Even schrikken van de Volkskrant. Is dit rantsoenering? Doelmatigheidsbevordering? Zorgplicht? Nieuwsgierigheid? Bezuiniging? Allemaal een beetje ? Geachte lezer: dit is de wereld van datamining. Een beetje Wikileaks (what’s in a name) met dien verstande dat u als klant zelf de data aanlevert door uw gesprek, bestelling of aanvraag. Dus lekkage van een wat vriendelijker karakter.
Mijn Bestellingsverleden
Nespresso
Afzonderlijke gegevens worden tot ‘big data’ samengebracht, waaruit gebruikersprofielen te voorschijn komen. Als u via Internet bij Nespresso geregeld een lading cupjes koffie bestelt kan het volgende gebeuren. Uw koffiemachine vertoont kuren en u belt de helpdesk. Kijk dan niet gek op als de medewerker u verwijtend zegt dat u het apparaat dan ook maar had moeten ontkalken. Uw laatste bestelling van ontkalkingsmiddel dateert al van x maanden geleden.Ziet u trouwens (vergroten? Dubbelklik!) dat uw columnist wel braaf ‘recycling bags’ bestelt. En wat vindt u van de selectie en het tijdsinterval? Zijn we stevige koffiedrinkers of niet? Ja, rond de jaarwisseling 2o10/2011 is het even hard gegaan..
Operatie bespreken
Dat is het slim gebruiken van gegevens. Gaan we terug naar de zorgsector: het kan heilzaam zijn als de behandelaar over gegaggregeerde gegevens kan beschikken die inzicht geven. Dat kan een bijgehouden dagboek zijn, maar binnen de eHealth zie je ook andere ontwikkelingen (digitale aanvalskalender bij epilepsie). Patienten zouden er op moeten aandringen dat zorgaanbieders deze gegevens gebruiken. Een overmatig gebruik van incontinietieluiers kan betekenen dat de patient misschien wel meer gebaat is met een operatieve ingreep! Gaat het om rantsoenering of bezuinigen dan wordt het een ander verhaal. Dan komen andere stakeholders in beeld en dat houdt beslist risico’s in.
7 augustus 2012 om 16:46 uur door Jan Taco te Gussinklo
Big Data
Regionale Activiteit
“Datajournalistiek belangrijk”
Aldus Andre Vis, hoofdredacteur van De Twentsche Courant Tubantia. “Denk maar alleen maar aan Wikileaks” vult Jaap Lodewijks, adjunct-hoofdredacteur van de Stentor aan. “Regiohack.nl gaat graven op Internet”
Zo staat het aangekondigd op 15 september 2011 op de voorpagina van de regionale krant. In de publicatie wordt ook een een ‘event’ medio november 2011 aangekondigd. Ik onderken het welhaast historisch belang en meldt mij in Enschede aan als gast-bezoeker.
Twentsche Courant Tubantia / DeStentor
Hackathons
Tijdens de Regiohack blijkt Josien Kodde (Journalist Redactie Mens & Leven van de Twentsche Courant Tubantia ) een groepje om zich te hebben verzameld dat in korte tijd regionale Diabetes data wil verzamelen. Omdat dit mijn aandachtsgebied is kan ik nog wat suggesties doen. Maar het blijkt allesbehalve eenvoudig en het is ‘kort dag’. Data blijken vooral zeer gedateerd te zijn. Andere ploegjes hebben meer succes. Al met al krijgt de gehele aanpak een plaatsje in het kersverse ‘handboek‘ zoals de lezer kan zien. Maar ook in de social media is er aandacht.
In The Netherlands we had the Regiohack last year. It might be a milestone! Our Dutch Journalist Jerry Vermanen was one of the organizers. He now als contributes to the International Handbook that is being prepared.
Regiohack 2011
Newspaper
Datamining and -visualisation is flourishing. You can see in your daily Newspaper.
Now there is “The Data Journalism Handbook” coming. I expect that it will be important and interesting for many more people. Already you can have a look here.
Early Release
With this digital Early Release edition of The Data Journalism Handbook, you get the entire book bundle in its earliest form – the author’s raw and unedited content – so you can take advantage of this content long before the book’s official release. You’ll also receive updates when significant changes are made, as well as the final ebook version.
European Collaboration
This collaborative book coordinated by the European Journalism Centre and the Open Knowledge Foundation aims to answer questions like: Where can I find data? How can I request data? What tools can I use? How can I find stories in data? How can I make data journalism sustainable? It had a very successful start at the Mozilla Festival in London in November 2011 with fifty contributors, including data journalists and professors from the New York Times, Financial Times, Guardian, Chicago Tribune, Medill School of Journalism, and Cronkite School of Journalism. Additional contributors now include leading developers, analysts, FOI experts, and other practitioners from places like the BBC, City University London, Scraperwiki, Zeit Online, and many others. The project has received coverage in the New York Times, Liberation, Tech Crunch, World Editors Forum, and other major publications.
29 november 2011 om 15:42 uur door Jan Taco te Gussinklo
Big Data
Regiohack
Initiatief van tweetal regionale kranten en Hogeschool
Onlangs berichtte ik hierover Regiohack. Diverse teams, samengesteld uit journalisten en nerds van de Saxion Hogeschool, gaan daarbij aan de slag met een thema. Zij proberen binnen 30 uur speuren data te verzamelen. De focus is daarbij gericht op de regio, in dit geval Oost Nederland. De onderzoekteams hopen dat de resultaten zodanig spraakmakend zijn, dat ze de aandacht trekken in de media. Uiteraard is dit een vingeroefening voor het grote werk. Het is ook een strijd tegen de vervlakking van de journalistiek.
Eén van de teamleden laten we graag aan het woord op 11 november 2011:
Complex
Josien Kodde is journalist bij de Twentsche Courant/ Tubantia, waar zij zich bezighoudt met de redactie Mens & Leven. Haar onderzoeksteam van Regiohack heeft het zich niet gemakkelijk gemaakt. Het onderwerp diabetes mellitus heeft immers zoveel facetten …
15 september 2011 om 5:50 uur door Jan Taco te Gussinklo
Regiohack
DeStentor
De regionale krant (de Stentor) van donderdag 15 september 2011
Ingeklemd tussen Griekenland en Pensioenen een kop.Regiohack.nl. gaat graven op Internet. Op pagina 8 en 9 gaat het verder. “Internet is de nieuwe kroeg voor journalist’. Vervolgens wordt een zoekactie weergegeven: ‘Waar wordt het meest op porno gezocht in Overijssel, Gelderland respectievelijk Nederland”. De Redactie haast zich uit te leggen dat het hier gaat om het opsporen van openbare informatie (niet het traditionele hacken dus) en dat wordt onderbouwd door het aanhalen van de definities van Wikipedia. Op de voorpagina wordt ook een evenement aangekondigd op 10 en 11 november waarbij 30 uur lang door regiohackers wordt samengewerkt aan regionale kwesties. Het initiatief gaat uit van de Twentse Courant Tubantia en de Stentor.
Bron de Stentor 15 september 2011
Dokter Frank
Mijn lezers zullen weten dat ik al heel lang gebruik maakt van datajournalistiek (zie: hier). Deze aanpak is al tamelijk gebruikelijk bij internationale en landelijke kwesties. Maar ook bij het verkrijgen van meer inzicht over bepaalde thematiek. De regionale ondersteuning krijgt inderdaad de laatste tijd meer belangstelling. Onderstaand voorbeeld (van januari 2011) zou je als voorbeeld kunnen zien van regiohack, want dokter Frank komt uit Hengelo. Maar uiteraard is hij landelijk spraakmakend.
Website DutchButtonWorks.com
Doelgroep
Ik vind het spijtig dat het initiatief toch de minder gunstige bijklank van hacken meekrijgt. Het voorbeeld (pagina 9) over porno versterkt die indruk nog eens. De kans bestaat dat je zo juist de verkeerde types aantrekt. Een voorgenomen activiteit van 30 uur achtereen (op werkdagen) is ook weer zoiets. Een normaal mens wil ook nog naar bed. Wellicht onbedoeld wordt de suggestie gewekt dat dit uitsluitend iets is voor jongeren.
Zeker zal deze aanpak publiciteit genereren (mijn reactie is daarvan trouwens een voorbeeld). Dit alles gezegd hebbende, steun ik de achterliggende gedachte en wens de Redactie(s) veel succes met regiohack.nl.
16 december 2010 om 19:59 uur door Jan Taco te Gussinklo
Eysenbach
Visionary
Twitter
The new H1N1 Twitter study reaffirms Eysenbach’s status as a visionary in the field of infodemiology. With “Web 2.0” upon us, and tsunamis of user-generated content flooding the web, the Internet “has made measurable what was previously immeasurable” in Eysenbach’s words. What we could not measure 10 years ago due to the (comparatively) static nature of the Internet, is now readily measurable with infoveillance tools.
Gunther Eysenbach (Medicine 2.0)
H1N1
In the context of H1N1 Eysenbach says:“H1N1 marks the first instance in which a global pandemic has occurred in the age of Web 2.0 and presents a unique opportunity to investigate the potential role of these technologies in public health emergencies.
Title=”InfoVigil_2009
Codebook
To carry out analysis of tweet content in the H1N1 study Chew and Eysenbach used an open-source infoveillance system known as Infovigil (Eysenbach’s own creation) that automatically and continuously dissects textual information from Twitter. They created a “codebook” with three primary variables: 1) tweet content, 2) mode of expression, and 3) type of link posted, if any. Each of these categories had several subcategories allowing for good separation of different tweet “types”. The study had some interesting findings. Over the duration of the study the relative proportion of tweets using “H1N1” increased from 8.8% to 40.5%, indicating that the public gradually began to adopt the WHO-recommended terminology as opposed to “swine flu”. With respect to tweet content, personal accounts of H1N1 increased over time while humorous content declined, indicating that the public’s perception of the subject became more serious. The public attention was aroused in certain instances, especially following the WHO pandemic level 6 announcement on June 11, 2009, which gave rise to a large spike in tweets. Only 4.5% of tweets were identified as misinformation.
Graphs
Infoveillance
Overall the study is a nice of proof of concept and displays the fact that Twitter is a rich source of public opinion for the health authorities. Infoveillance can be used in the future not only for capturing sentiment, experiences, and behavioural trends, but importantly for tracking misinformation and identifying the informational needs of the human population. More studies of this kind should elucidate the value that social media will have for knowledge translation research and help refine the precision and accuracy of infoveillance tools for future infodemiology studies. Source: click here
4 december 2010 om 14:50 uur door Jan Taco te Gussinklo
Wikileaks
Cablesearch
Henk van Ess
Henk van Ess is met een manmoedige poging begonnen.
Via zijn Cablesearch worden documenten van WIKILEAKS doorzoekbaar gemaakt.Op dit moment (04 december 2010) gaat om 719 documenten.
Alcohol
Ik ben begonnen met een aantal zoektermen. Hier het resultaat van “alcohol” (5 hits)
Trouwplechtigheid
Samenvatting: Een rijk met alcohol (!) besprenkelde Islamitische trouwplechtigheid. Helaas is de beoogde artist enkele dagen tevoren omgebracht. Gelukkig brengt een Russisch zigeunerorkest uitkomst.Om gehele tekstfragment te lezen graag dubbelklik op tekst. Dat geldt voor alle onderstaande fragmenten.
Noord-Korea
Samenvatting: Kim-Jong -il (N-Korea) is nog steeds een stevige drinker, maar hij ziet er goed uit. NB. De term alcohol te zien door op het fragment te klikken (vergroten).
Tekstfragment
Turkije
Samenvatting: heeft het alcohol verbod in sommige Turkse steden een religieuze (Islamitische) component?
Tekstfragment
Haiti
Samenvatting: Hoe staat het met de gezondheid van Preval (Haiti)? Geen alcohol. Hij is weer aan medicijnen (na medisch bezoek aan Cuba) wat zou kunnen wijzen op activiteit van het prostaatcarcinoom.
Tekstfragment
Rusland
Samenvatting: Rusland als land van extremen (Fors alcoholgebruik en vervolgens alcoholverbod door Gorbatsjov).Zo is het ook met de opstelling tegenover de Russische Joden.