May 20, 2010

Enkel skjermskraping i Firefox

Skjermskraping – automatisk kopiering av større eller mindre mengder data fra en nettside for å lagre dem på din egen maskin eller server – kan være en litt teknisk krevende øvelse. Enten må du kunne såpass programmering at du kan skrive et script som henter eller du kan bruke et program som Kapow.  Nå har det kommet en mye enklere måte å gjøre det på som krever langt mindre teknisk innsikt: Firefox tillegget OutWit Hub. Sammenlignet med tidligere metoder for å gjøre dette er OutWit veldig enkel å bruke. Outwit gjør det også mye enklere å kopiere enkelttabeller og datasamlinger fra nettsider manuelt.

Slik gjør du: Du må bruke firefox. Så laster du ned outwit-tillegget.

785a8aed-ed40-4845-a125-e60fc9f58451
Når du kommer til en side du vil skrape trykker du på outwit-knappen i verktøylinja. Så får du opp en stor mengde valg hvor du kan sette opp skrapingen eller bare strukturere dataene på siden og kopiere dem. Noen av funksjonene ser ut til først å komme med den kommende proffutgaven av programmet.

image

Hva kan du bruke skjermskraping til i journalistisk sammenheng? Kort fortalt: Det er ikke alltid lett å få tak i datasettene som enten offentlige eller private virksomheter sitter på. Når det gjelder offentlige datasamlinger har man strengt tatt krav på å få dem med offentlighetsloven i hånd, men noen ganger er det enklere bare å skrape dataene selv fra virksomhetens nettsider.Deretter kan du lage en søkbar database av informasjonen du har samlet inn. Så gjentar du skrapingen hver gang nettsiden du skraper publiserer ny  informasjon og basen din blir mer og mer omfattende.

Espen Andersen – i NRK Brennpunkt – er en av en håndfull norske journalister som har brukt denne teknikken flere ganger. En av gangene han har brukt denne teknikken var for å lage den søkbare utgaven av flykesmennenes postlister. Fylkesmennene har hittil bare lagt ut oversikter over de siste dagenes inn og utgående post, uten mulighet for å søke i informasjonen. For å gjøre livet og jobben langt lettere for norske journalister skraper han alle fylkesmennene jevnlig, strukturerer dataene pent i en base og lar oss bruke dem. Nye oep.no skal etterhvert også omfatte fylkesmennene, men det gjenstår å se om det blir et bedre søk.

Takk til Kevin Anderson for tipset som kom på IJ-kurset om sosiale medier i journalistikken hvor han er en av foreleserne denne uka.

For flere tips og triks om nyttige teknikker og verktøy, sjekk ut bloggposten om tips og triks. Den er ikke helt oppdatert, så om du har tips om flere eller bedre triks og tjenester er det supert om du skriver en kommentar.

Share
February 4, 2010

Guardian crowdsourcer politikernes middagsregninger

I dag behandles skandalene rundt de britiske politkernes utgiftsrefusjoner i House of Commons. Skandalen ble som kjent avslørt av et graveteam i  The Telegraph i desember 2009, men ble innen få dager kuppet, om man vil, av The Guardian som på framifrå vis brukte crowdsourcing til å gjennomgå de enorme dokumentmengdene. I forbindelse med høringene har politikernes middagsregninger blitt frigitt og Guardian ber nok en gang om lesernes hjelp. Nieman Labs har skrevet en fin sak om Guardians metodikk.

guardiangif

Share
January 29, 2010

Dt.no oppsummerer Buskerudbenken-prosjektet etter 120 dager

I forbindelse med valget skrev jeg litt om buskerudbenken.dt.no. Det er en automatisk side som aggeregerer innhold stort sett fra Stortinget.no og utvalgte nettaviser. I dag oppsumerer digitalredaktør Rino Andersen prosjektets første 120 dager på bloggen sin.

Gjennom Buskerudbenken ser du også hvor aktive politikerne er i mediene. Torgeir Mikaelsen har for eksempel vært i mediene 145 ganger siden Stortinget ble satt for 120 dager siden.  I samme periode har Per Olaf Lundteigen vært i mediene 188 ganger. Kildene er riksmediene, inkludert byråene, og alle nettavisene i Buskerud. Du får med andre ord en god oversikt. Buskerudbenken er det perfekte oppslagsverket for å følge med.

Buskerudbenken er et godt norsk eksempel på god databasebasert aggregeringsjournalistikk. Siden gir stadig oppdatert informasjon i en sammenstilling du ikke får noe annet sted, uten behov for manuell oppdatering. Den er nyttig både for publikum og for journalistene som kan bruke den til utgangspunkt for andre saker siden sammenstillingen av dataene viser sammenhenger man kanskje ikke ville tenkt på ellers.

Rino Andersen vil gjerne ha innspill til videreutvikling av tjenesten.

Share
January 26, 2010

Tilgang til offentlige data i Norge og utlandet

Foto: My Melting Brain - Creatice Commons-lisens

Foto: My Melting Brain - Creatice Commons-lisens

De siste dagene har det vært en del skriving og prating om tilgang på offentlige datasett. I løpet av få dager har den britiske portalen for offentlige data data.gov.uk blitt lansert og Olav Anders Øvrebø m.fl på UiB har presentert rapporten Fakta først om tilgang til data i offentlig sektor. Fra før har vi den amerikanske portalen data.gov. På NRK Beta og kanskje spesielt på Origobloggen har det vært interessante diskusjoner. Mange har etterlyst en tilsvarende tjeneste i Norge – og det er kanskje lys i tunellen takket være Semicolonprosjektet som jobber for å lage en felles datastandard i det offentlige og tilrettelegge for offentlig tilgang til data. ( Du kan laste ned en presentasjon av prosjektet fra hjemmesiden deres.)

Den nye offentlighetsloven sikrert tilgang til data på linje med andre offentlige dokumenter. Slik tilgang er et viktig utgangspunkt for å drive analytisk datastøttet journalistikk som kan avsløre sammenhenger og fenomener i samfunnet på en annen måte enn tradisjonell journalistikk kan. (I tillegg åpner slik datatilgang selvsagt for en rekke nyttige tjenester og applikasjoner uten direkte journalistisk formål.)

Hittil har de som har drevet med slik journalistikk i Norge ofte vært tvunget til enten lange krangle/forhandlingsrunder med mer eller mindre velvillige offentlige etater eller, dersom dataene er blitt publisert på nett, å sette opp skjermskrapinger med roboter som kopiere ned dataene.

Semicolonprosjektet skal forhåpentlig gjøre det lettere å få tilgang til data. Målet er  “semantisk og organisatorisk interoperabilitet i kommuniserende og samhandlende organisasjoner” i det offentlige, intet mindre.  Forenklet betyr det at målet er å lage en standard for hvordan det offentlige registerer data, hva de registrere og hvordan de gjøres tilgjengelige. For oss i det offentlighe skal det blir enklere både å få data, samkjøre data fra flere etater og vite hva som faktisk registeres slik at man kan komme med kvalifiserte krav om innsyn.

Vi på IJ har hatt kontakt med Per Myrseth i DNV som har ansvar for deler av prosjektet. Han tar imot innspill fra journalister om hva slags data de ønsker tilgang til først.

Foreløpig er dette et prøveprosjekt som går noen år for å lage en slik felles standard. Så langt jeg har forstått har det ikke blitt gjort noe vedtak om standarden faktisk skal tas i bruk. Men forhåpentlig ender dette ut i en portal a la data.gov og data.gov.uk og ikke bare forsvinner når prosjektperioden til Semicolon er over.

Share
January 12, 2010

Skriveprosjekt: Bok om journalistikk på nettet i de sosiale medienes og delekulturens tid

Jeg har akkurat fått beskjed om at Pressens faglitterære fond har innvilget min søknad om fire måneders arbeidsstipend for å skrive en bok om journalistikk på nettet i de sosiale medienes og delekulturens tid.

Boka er tenkt både som en lærebok i forskjellige teknikker og verktøy og som en samling av eksempler på god nettjournalistikk, med vekt på samspill med brukerne. Begynner trolig arbeidet så smått i løpet av våren og for alvor utover senhøsten.

Et sentralt punkt er å prøve å beskrive hva som er kvalitet i journalistikken på nettet og hvordan nettkvalitet skiller seg fra papir/tvkvalitet.

Jeg har planer om å bruke bloggen aktivt i prosessen, både til å samle ideer, eksempler og publisere utkast til kapitler, så følg med.

Cave ab homine unius libri.

Share
September 30, 2009

Norsk valgdekning på nett

I en post om nettdekningen av valget litt utpå kvelden valgdagen lovte jeg å komme tilbake med en mer fyldig gjennomgang av hvordan norske medier dekket valget, og da spesielt valgnatten. Siden da har tida gått veldig fort, og jeg har ikke kommet så langt som til å skrive posten.

Heldigvis har andre gjort det. Aftenpostens John Einar Sandvand har i sin blogg Betatales.com laget en greit oversikt over hvordan nye muligheter ble brukt til journalistisk presentasjon på nettet under valgnatta. Han konkluderer:

  • News sites try to be as quick as possible in presenting the latest results
  • Several of the sites had prepared interactive graphics which where automatically updated as the results came in
  • Services like Coveritlive and Twitter were used to report live from the different party headquarters
  • News sites increasingly provide a platform for users to discuss the election resuts with each other. This was done by integrating Twitter hashtags into the news content as well as through use of Facebook Connect.

Ellers gjorde DT.no og Eddas utvikler Christoph Schmitz et fint eksempel på aggregrende car/nettjournalistikk med oversiktsiden over Burskerudbenken. De henter inn tilgjengelig informasjon over hvordan representatene opptrer på tinget. Inspirasjonen kommer trolig fra blant andre Adrian Holovatys Congress-prosjekt i Washington Post , New York Times Represent-prosjekt som de fikk Knight-Batten-prisen for innovasjon i journalistikk for i år, og sikkert også Espen Andersens prosjekter i NRK og Budstikka.

buskerudbenken

Share
May 13, 2009

Google varsler lansering av flere smarte søkeverktøy

Google varsler nå at det kommer en rekke nye søkeverktøy som ser ut til å kunne bli god hjelp for oss som gjør mye research på nett. Ved å bruke utnytte semantisk webteknologi skal de nye verktøyene også forholde seg til meningen i informasjonen søkemotoren finner. Dette sa Marissa Mayer, assisterende direktør for søk og brukeropplevelse i Google på deres Searchology happening i Californina, i følge BBC.

Blant produktene hun viste fram var:

Rich snippets - Snippet er navnet på den lille tekstbiten som dukker opp som søkeresultat. Rich snippest vil gi informasjon som ikke bare er hentet fra den enkelte nettsiden du får treff på. Eksempelet Mayer bruker er at et søk på en restaurant også vil gi treff på helseinspeksjoner hos restauranten, gjennomsnittlig karakter på brukeranmeldelser osv. Bak dette ligger teknologi som setter Googles datamaskiner i stand til å skjønne hvilken informasjon på andre nettsteder som henger sammen med søketreffene ut fra innholdet på siden, hvilken mening den har.

Google Squared - Dette skal gi deg muligheten til med ett klikk å sortere søkeresultatene inn i et regneark. Litt avhengig av hvordan dette fungerer vil det blir et svært nyttig verktøy for journalister som gir research. Å få informasjonen inn i et regneark er et viktig steg for effektiv viderebehandling og arkivering av informasjonen du finner under researchen din.

Dette sier Mayer til BBC om teknologien bak Google Squared:

“What they are basically doing is looking for structures on the web that seem to imply facts. Like something ‘is’ something.

“Different tables, different structures, and then corroborating the evidence around whether or not something is a fact by looking at whether that fact occurs across pages.

“This is all in the secret sauce of what we are doing and it takes an incredible amount of compute power to create those squares,” said Ms Mayer.

De to siste nyhetene er Google Search Options og Skymap. Skymap er et gps-styrt stjernekart for mobiler som kjører Googles operativsystem Android.På sikt kan det være en interessant tanke for presentasjon av nyheter og andre saker på mobilplatformen.

Search Options er jeg mer spent på. I følge Google skal dette være “et verktøybelte” for behandling av søkeresultater, med utstrakte muligheter for sortering og kategorisering av søkeresultatene dine. Det er i dag litt uklart hva disse mulighetene er. I følge BBC dreier det seg om verktøy som lar brukeren “”slice and dice” results so they can manipulate the information and get what they want faster” etter at du har fått søkeresultatene.

They come into play after a normal web search and allow users to drill down into the results by offering an option for different genres like product reviews, forum posts or videos. Other choices include recently added blogs, images, timelines and so on, skriver BBC.

Hold øye med Google Labs – der dukker det godsaker opp fortløpende.

Les mer om Searchology fra Google News.

Share
April 28, 2009

Google News Timeline – noe nyhetsmediene burde lære av

Google News Timeline ble forrige uke lansert på Google Labs. Tjenesten er en fiffig måte å visualisere arkivinnhold på som jeg har nevnt såvidt i en av kommentarene i bloggposten om flash og video på nettet.

Google Timeline - et søk etter "swine flu" med dagsvisning
Google Timeline – et søk etter <swine flu>

Det er en rekke søkemuligheter og visningsmuligheter. Du kan søke på arkivstoff tilbake til 1800-tallet og velge visning på dag, uke, måned, år eller tiår. Du kan finne saker for lange perioder eller bare noen dager, og du kan tildels velge kilder selv om foreløpig er begrenset til amerikanske nyheter, nyhetsbilder, videoer, sportsresultater, blogger, en del kunst- og kulturinformasjon og wikipedia.

Dette er en brennfin måte å presentere arkivinnhold på, hvor sammenstillingen i seg selv kan gi større innsikt enn bare summen av enkeltsakene. Dette burde mediene lære av. Her er det store muligheter for journalistisk presentasjon. Enten kan redaksjonen selv bruke teknikken for å visualisere utviklingen av en enkeltsak, eller de kan legge til rette for at brukerne kan lage tidslinjer ut fra arkivet selv. Det ene utelukker på ingen måte det andre.

Les også Why did Google create News Timeline and not newspapers? i PDA – The Digital Content Blog på Guardian.co.uk

Share
December 11, 2008

Nyttige verktøy til research og dokumentasjon på nettet

I forbindelse med kurset “Digital Sporhund 2 – finne, koble og organisere informasjon” som vi holder på IJ denne uka, har jeg laget denne oversikten. Dersom det er verktøy eller tjenester jeg ikke har tatt med, men som bør med, setter jeg pris på om du legger dem til i kommentarfeltet.

Jeg bruker i hovedsak nettleseren firefox. Hovedgrunnen er alle mulighetene til å tilpasse den, blant annet med forskjellige tilleggsprogram, eller ad ons som det heter på engelsk. Dersom du ikke allerede bruker firefox kan du laste den ned gratis fra denne siden.

Firefoxtillegg:

  • Update scanner – enkel og grei nettsidetracker som varlser når det blir endringer på siden. Kan stilles inn til å sjekke sider fra noen sekunders mellomrom til langt sjeldnere.
  • Scrap Book – Utklippstavle på steroider
  • Gspace – som lar deg bruke gmailområdet ditt til lager for filer som er større en det du kan sende som vedlegg.
  • Fast video download – Lar deg laste ned youtube-filer som flashvideo-filer.
  • Download embedded – som lar deg laste ned embeddede mediefiler som ikke er flash.
  • Webmynd – Lar deg gjøre opptak av nettleseraktiviteten din, samt personalisere søkeresultatsiden i Google. Sider du har vært inne på dukker opp som en egenboks.
  • Zotero – Sterkt tvidet utklippstavlefunksjon. Larr deg lagre og laste ned sider og lenker på siden, kommentere og søke i det lagrede materialet. litt som Scrap Book men laget med litt mer bibliotekar-tilsnitt.
  • Ressurect pages – Dersom du noen gang har opplevd at lenker ikke lenger funker eller at sider du får treff på i søkemotoren ikke lenger finnes er dette et verktøy som kan hjelpe deg. Det sjekker automatisk hurtigbufferen/cachen til Google, Yahoo, Archives.org og et par søkemotorer til for kopier av siden du prøve å gå til.
  • Research word -  Høyre klikk på ord og begreper du vil vite mer om og du får opp snarveier til oppslag på ordet i en rekke oppslagsverk. Du kan legge til oppslagsverk selv. Litt som Google toolbars «custom search engine»-funksjon altså og som gamle Copernic meta for de som husker den.
  • Bug me not - Med denne slipper du å registrere deg på en god del sider som er gratis men likevel krever registrering.
  • Customize google – Lar deg påvirke hvordan resultatsiden i Google vises. Du kan blant annet fjerne reklame, og legge til lenker til samme søk i en rekke andre søkemotorer.
  • PDF Download - Gjør det enklere å laste ned pdf’er, kan gjøre om nettsider til pdf for lagring og gjøre om pdf’er til html.
  • Domain Tools Whois – Domaintools.com er en av de beste whois-tjenestene. Denne add on’en gir deg søk på hvem som eier nettadressen du er på ved et klikk. Hos Domain Tools selv kan du få flere søkeverktøy, også til IE.
  • Her finner du en oversikt over tilgjengelige firefoxtilleggene.

Progammer og tjenester for overvåking av endringer på nettsider:

Read the rest of this entry »

Share
December 3, 2008

Google varsler influensaepidemier bedre enn helsevesenet

Hvert år kommer helsemyndighetene med prognoser for influensaspredning kommende vintersesong. Det ligger mye faglig innsikt og arbeid av høyt kvalifiserte spesialister bak. Likevel ligger det i prognosenes natur at de er unøyaktige. Google har nå lansert Google Flu Trends, et prognoseverktøy som klarer å varsle influensaepidemier to uker raskere enn ekspertene i det amerikanske helsetilsynet, i følge Google selv.. Det er Google.org , Googles veldedige stiftelse, som står bak.

Read the rest of this entry »

Share
November 13, 2008

Askercrime.org

Budstikka har lansert en ny hendelseslogg med oppdateringer fra politiet, litt etter modell fra Adrian Holovatys smått klassiske chicagocrime.org, som nå er en del av tjenesten everyblock.com. Der Adrian får sine data automatisk fra politiet må foreløpig Budstikka skrive inn hendelsene manuelt. Men jobben vil betale seg. På sikt vil Budstikka her ha en verdifull informasjonsbase de kan få mye ut av i mange journalistiske sammenhenger. Snart kommer dessuten integrasjon med budstikkas hendelseskart, skriver redaktør Dag Otter Johansen i Budstikka multimedia på den splitter nye bloggen sin.

Alle de følgede domenene er forresten ledige fortsatt:

  • askerkrim.no
  • askerkrim.org
  • askercrime.org
  • askercrime.no
  • bærumskrim.no
  • bærumskrim.org
  • baerumskrim.no
  • baerumskrim.org
  • barumskrim.no
  • barumskrim.org

Noe å tenke på, Dag?

Share
September 5, 2008

Google Chrome duger ikke som researchverktøy


Lanseringen av nettleseren Chrome er fulgt av masse hype og diskusjon som alltid når Google lanserer nye ting. I skrivende stund gir Sesams norske bloggsøk 594 treff på navnet.

Det er en del gilde funksjoner i Chrome. Men driver du, som jeg, mye med research på nettet er det likevel gode grunner til fortsatt å bruke Firefox. Hovedgrunnen, og dette er neste utrolig, er at Google ikke har laget noen Chrome-utgave av sine eminente verktøylinje. Vel har lagt søkefunksjonalitet i adresselinja, men for å få spesialsøk må du først legge til søkemotorene manuelt og så bruke spesielle kodeord når du søker.

Jeg opplever det som langt mer tungt enn bare å klikke på ikoner på verktøylinja. Uansett får du ikke kjekke vertøy som ordmarkeringen, oversettelser, direktetilgang til Googles cachede utgave av siden, og ikke minst “søk på denne siden”-knappen.

Firefox rager dessuten himmelhøyt over på grunn av alle tilleggsprogrammene som gjør livet og research så mye lettere. Noen av mine favoritter er:

Update scanner – enkel og grei nettsidetracker
Scrap Book – Utklippstavle på steroider
Gspace – som lar deg bruke gmailområdet ditt til lager for filer som er større en det du kan sende som vedlegg
Fast video download – Lar deg laste ned youtube-filer som flashvideo-filer
Download embedded – som lar deg laste ned embeddede mediefiler som ikke er flash

En ok funksjon i Chrome er inkognitomodus. Her kan du surfe uten at det etterlates spor på din maskin etter hvilke sider du har vært på. Dersom utviklerne i tillegg hadde sørget for å ikke legge igjen spor på serverne du besøker hadde dette vært skikkelig nyttig for journalister.

Telegraph.co.uk har laget en anmeldelse av anmeldelsene av Google Chrome.

Share