VGNett er flinkte til å ta i bruk ny arbeidsmetodikk og nye presentasjonsformer på nettet. Denne uka gjorde de bra arbeid med analysene av partiledernes taler. Gjennom forskjellige sett med ordskyer vises forskjellige karakteristika ved talene, som hvor ofte “jeg” brukes i forhold til “vi”, hvilke ord som brukes hyppigst, hvor lange setninger etc.

VGs ordskyanalyse av partiledernes taler
Saken er laget av Tom Byermoen, som jeg ikke kjenner, og John Bones, som ofte lager datastøttet journalistikk som dette. Som både språkinteressert og nettjournalistikknerd frydes jeg over sånne saker som dette. Det gir et annet perspektiv på talene og meningen i dem enn de rene innholdsanalysene som politiske kommentarorer stort sett kommer med. Flashpresentasjonen der leseren får en rekke forskjellige innganger i materialet er oversiktlig og nyttig.
Jeg har likevel et par ankepunkter. Grunnlaget for analysen er partiledernes taler på siste landsmøte, hentet fra partienes nettsteder, altså én tale for hver partileder. Det er et lovlig tynt materiale for å si noe bastant om en persons talestil ut fra en kvantitativ analyse som dette. Jeg skulle gjerne sett at de hadde brukt langt flere taler fra hver, for å luke ut tilfeldige fenomener i tiden, som gir store utslag på statistikken. Jeg tviler for eksempel sterkt på at Dagfinn Høybråten generelt sett har ordet “Wilberforce” som det nest mest brukte i sine taler, eller “Malawi” som det fjerde mest brukte. Å slå fast at “Slik er språket til politikerne” basert på dette er, for å bruke Siv Jensens tredje mest brukte ord, “lettvint”.
En annen svakhet er at to av talene analysens baserer seg på er muntlig framført, mens resten er hentet fra manus. Det er all grunn til å tro, som VGNett selv påpeker, at den muntlige framføringen kan fravike manus kraftig. Dermed blir det ikke rett sammenlikningsgrunnlag. Et tredje ankepunkt er at dette er en ren kvantifiserende analyse basert på enkeltord. Mening og sammenheng tas ikke med i betraktningen. Det er derfor umulig å vite om Jens Stoltenbergs “vi” betyr regjeringen, partiet, landet eller en annen gruppe han er med i.
Da jeg var på Car-konferansen i Houston i fjor vår blogget jeg om en litt mer avansert utgave av slike tekstanalyser og hvordan Tom Torok i NYTimes hadde brukt dem:
Et annet verktøy de bruker for å se sammenhenger i store tekstmengder et Many Eyes fra IBM. Verktøyet er gratis å bruke, men dataene du bruker det på blir synlig for alle, hvilket selvsagt kan være et aber for en journalist som vil bruke det på kildemateriale. Many Eyes visualiserer sammenhenger og datamengder på flere måter. En av dem viser hvor mange ganger ord står i sammengheng, ved å gjøre ordene mindre eller større, som en tag cloud. Her er systemet brukt på forklaringen til daværende justisministerkandidat Alberto Gonzales under utspørringen i kongressen.

Many Eyes-teknologien gir mer anvendelige analyser fordi den baserer ordskyen på hvilke syntaktiske og semantiske sammenhenger et ord står i og ikke bare på hvor mange ganger ordet forekommer. Dette gir et riktigere og mer interessant bilde av talenes retoriske struktur, og kan avsløre tendeser i talen som det ellers må en nitid nærlesing for å avsløre.
Teknologien er gratis. Neste skritt for VGNett, eller andre, burde være å kjøre et tosifret antall taler fra hver av partilederne gjennom Many Eyes.