Tagged: språk

Wolfram Alpha – søkemotoren som (nesten) forstår hva du mener

Wolfram Alpha er en ny søkemotor – eller computational knowledge engine som de kaller det selv – som skal skjønne hva du mener og forstå naturlig språk. Det er i følge skaperne et skritt på den lange veien til å gjøre all systematisk kunnskap tilgjengelig for alle.

Hovedproblemet med alle søkemotorer er at de ikke har et forhold til meningen av søkeordene. Søker du etter ordet brus får du bare treff på den bokstavkombinasjonen selv om treff på ordet mineralvann hadde vært like  bra. Du kan også risikere å få treff på brus fra en elv, uten at du er interessert i det i det hele tatt. Tradisjonelle søkemotorer er altså dumme. De gir deg det du ber om – ikke det du er ute etter.

Dette skal Wolfram Alpha bøte på. I det minste delvis. Du kan stille spørsmål: Who is president of the united states ? og få opp en god del fakta om Obama. Du kan søke på byer som New York og få opp masse fakta eller søke på Fredrikstad og få opp langt færre fakta. (Du får også vite at Fredrikstad og Sarpsborg er samme by, hvilket selvsagt er egnet til å forarge folk fra begge byene.)

Wolfram Alpha gir treff på fakta, eller informasjonbiter, i motsetning til klassiske søkemotorer som gir treff på nettsider (eller bilder eller nyheter osv). Slik sett er den nyskapende, og så lenge man holder seg til USA og engelsk både relativt bra og nyttig. Skal du søke på andre språk etter fenomener i andre land er den ikke så bra ennå.

Wolfram Alpha bøter, i det minste delvis,  også på et annet klassisk søkemotorproblem: Den kan se ned i den dype webben, og henter fra resultater fra flere databaser. Men også her er det selvsagt store begrensninger i antallet baser den går gjennom.

Paul Bradshaw har testet ut flere søk med vekslende hell og skriver om det i sin Online Journalism blog.

Wolfram Alpha er laget av Stephen Wolfram ved og ble presentert på Harvard forrige uke. Den er skrevet i et kodespråk Wolfram selv har laget. Du kan følge utviklingen og tankene rundt på Wolfram Alpha-bloggen .

Her finner du selskapets introduksjon til hvordan du kan bruke søkemotoren. Og her er tvitringen om #wolfram.

Share

VGNetts analyse av partiledernes taler og hvordan den kunne blitt enda bedre

VGNett er flinkte til å ta i bruk ny arbeidsmetodikk og nye presentasjonsformer på nettet. Denne uka gjorde de bra arbeid med analysene av partiledernes taler. Gjennom forskjellige sett med ordskyer vises forskjellige karakteristika ved talene, som hvor ofte “jeg” brukes i forhold til “vi”, hvilke ord som brukes hyppigst, hvor lange setninger etc.

VGs ordskyanalyse av partiledernes taler
VGs ordskyanalyse av partiledernes taler

Saken er laget av Tom Byermoen, som jeg ikke kjenner, og John Bones, som ofte lager datastøttet journalistikk som dette. Som både språkinteressert  og nettjournalistikknerd frydes jeg over sånne saker som dette. Det gir et annet perspektiv på talene og meningen i dem enn de rene innholdsanalysene som politiske kommentarorer stort sett kommer med. Flashpresentasjonen der leseren får en rekke forskjellige innganger i materialet er oversiktlig og nyttig.

Jeg har likevel et par ankepunkter. Grunnlaget for analysen er partiledernes taler på siste landsmøte, hentet fra partienes nettsteder, altså én tale for hver partileder. Det er et lovlig tynt materiale for å si noe bastant om en persons talestil ut fra en kvantitativ analyse som dette. Jeg skulle gjerne sett at de hadde brukt langt flere taler fra hver, for å luke ut tilfeldige fenomener i tiden, som gir store utslag på statistikken. Jeg tviler for eksempel sterkt på at Dagfinn Høybråten generelt sett har ordet “Wilberforce” som det nest mest brukte i sine taler, eller “Malawi” som det fjerde mest brukte. Å slå fast at “Slik er språket til politikerne” basert på dette er, for å bruke Siv Jensens tredje mest brukte ord, “lettvint”.

En annen svakhet er at to av talene analysens baserer seg på er muntlig framført, mens resten er hentet fra manus. Det er all grunn til å tro, som VGNett selv påpeker, at den muntlige framføringen kan fravike manus kraftig. Dermed blir det ikke rett sammenlikningsgrunnlag. Et tredje ankepunkt er at dette er en ren kvantifiserende analyse basert på enkeltord. Mening og sammenheng tas ikke med i betraktningen. Det er derfor umulig å vite om Jens Stoltenbergs “vi” betyr regjeringen, partiet, landet eller en annen gruppe han er med i.

Da jeg var på Car-konferansen i Houston i fjor vår blogget jeg om en litt mer avansert utgave av slike tekstanalyser og hvordan Tom Torok i NYTimes hadde brukt dem:

Et annet verktøy de bruker for å se sammenhenger i store tekstmengder et Many Eyes fra IBM. Verktøyet er gratis å bruke, men dataene du bruker det på blir synlig for alle, hvilket selvsagt kan være et aber for en journalist som vil bruke det på kildemateriale. Many Eyes visualiserer sammenhenger og datamengder på flere måter. En av dem viser hvor mange ganger ord står i sammengheng, ved å gjøre ordene mindre eller større, som en tag cloud. Her er systemet brukt på forklaringen til daværende justisministerkandidat Alberto Gonzales under utspørringen i kongressen.

Alberto Gonzales' forklaring til kongressen kjørt gjennom Many Eyes.

Many Eyes-teknologien gir mer anvendelige analyser fordi den baserer ordskyen på hvilke syntaktiske og semantiske sammenhenger et ord står i og ikke bare på hvor mange ganger ordet forekommer. Dette gir et riktigere og mer interessant bilde av talenes retoriske struktur, og kan avsløre tendeser i talen som det ellers må en nitid nærlesing for å avsløre.

Teknologien er gratis. Neste skritt for VGNett, eller andre, burde være å kjøre et tosifret antall taler fra hver av partilederne gjennom Many Eyes.

Share

Drammens Tidende: Automatisk oversatte polske nyheter om storbrannen

Branntragedien i Drammen der mange polske håndverkere omkom er selvsagt store nyheter i Polen. Drammens Tidende har satt sammen en feed av automatisk oversatte nyheter fra polske medier om saken. Utgangspunktet er feeden fra et søk på ordet Drammen i den polske utgaven av Google News. Denne har Edda-utvikler Christoph Schmitz som lagde dette etter DT-redaktør Geir Arne Bores idé. Christoph kjørt gjennom Yahoo Pipes og tilbake gjennom Googles automatiske oversetter som tar innholdet fra polsk til norsk.

Resultatet er språklig sett litt rufsete, noen ganger blir det veldig rart. Det skyldes både at datamaskiner ikke er klarer å skjønne flertydigheten i språk, men også at Google tar oversettelsen i to steg. Først fra polsk til engelsk og så derfra til norsk. Det blir dermed en ekstra kilde til feil og misforståelser.

Continue reading

Share

Google med talegjenkjenning i YouTube-søk

Etter en lang stund med relativt lite artige nyheter hos Google Labs dukket Gaudi opp her om dagen. Det er ikke et søk om den katalanske arkitekten, men en forkortelse for Google Audio Indexing, en test av talegjenkjenning og hvordan dette kan brukes til å søke etter innhold.  Foreløpig er søket begrenset til å gjelde kanaler på Youtube med amerikansk politisk innhold, åpenbart i anledning det amerikanske presidentvalget.Søket er en videreføring av Google election video serch gadget’en for iGoogle de lanserte tidligere i år.

Talegjenkjenning er ikke noe nytt. Men hittil har det vært små søkeselskaper som har hatt dette som nisjeprodukt med tildels små indekser. En gratis søketjenste som podzinger som var veldig bra, ble dessuten endret til en lukket betalingsjeneste under navnet Everyzing.

En raskt test av Gaudi viser at talegjekjenningen er overraskende god. Selv fyllord som «hum» og «um» blir funnet med god presisjon, og den finner forskjell på ord som lyder likt men skrives forskjellig, som «hart» og «heart».  Det ser også ut til at de vanlige boolske operatørene virker. En annen kjekk funksjon er muligheten til å søke videre i enkeltvideoene du finner.

For flere detaljer, sjekk ut faq’en hos Google.

Share

Dagsrevyen = rugby leauge player! Youtubes automatiske oversettelse tuller det til

Automatisk oversettelse er nyttig i mange tilfeller, selv om den litterære kvaliteten på resultatet ofte varierer. Youtube har begynt med automatisk oversettelse av en del ting på sidene siden, blant annet søkeresultat som du kan få på «ditt eget språk».

Jeg har så langt jeg vet ikke bedt om annet enn engelsk, men får likevel dette pussige resultatet.  Youtube insisterer nemlig på at dagsrevyen skal oversettes til engelsk som «rugby» eller i noen tilfeller «rugby leauge player». Stusset litt over dagsrevyens åpenbart noe heftige rugbydekning på youtube før jeg fant på å slå av autooversetteren. (Jeg har ikke klart å finne noen rugbyspiller med navn som ligner på Dagsrevyen, men det finnes kanskje?) Continue reading

Share

Google med automatisk oversettelse fra norsk til engelsk

I mai lanserte Google automatisk oversettelse til norsk, både i språkverktøyene og med translate this page-lenker i resultatlista.

Nå har de også begynt med automatisk oversettelse fra norsk til engelsk. Gjør du et søk der du får treff på norske sider, som for eksempel et søk på ordet ferievær ser du at translate this page lenkene dukker opp.

Automatisk oversettelse er aldri helt bra. Stort sett er det beste du kan håpe på en sånn passe forståelig tekst. Enn så lenge ser det ut til at de sliter med ordforrådet i databasen. Det kan bli bedre, men aldri helt bra siden norsk behandler sammensatte ord helt anderledes enn engelsk, noe følgende tekstprøve viser:

Googles versjon:

Svenskene would end in October-november of last year’s journey to Thailand’s capital Bangkok and to the small Kingdom of Bhutan further north in Asia. They asked the tour operators pick and choose more specific destination for them, wrote the Stockholm-newspaper Svenska Dagbladet on Thursday.

The choice fell on the island of Koh Samui in Thailandbukta. But when they arrived there, it turned out that the island had been hit by strong monsunregn in more than a week, and according to the Swedish tourists were oversvømt the streets and entrances to shops and restaurants closed with sandsekker.

Originalen fra NTB:

Svenskene skulle i månedsskiftet oktober-november i fjor reise til Thailands hovedstad Bangkok og til det lille kongedømmet Bhutan lenger nord i Asia. De ba turoperatøren velge ut mer konkrete reisemål for dem, skrev Stockholm-avisen Svenska Dagbladet torsdag.

Valget falt på øya Koh Samui i Thailandbukta. Men da de kom dit, viste det seg at øya hadde vært rammet av sterkt monsunregn i mer enn en uke, og ifølge de svenske turistene var gatene oversvømt og inngangene til butikker og restauranter stengt med sandsekker.

En ekstra bug er at oversetteren tok med originalsetningene i resultatet. I teksten over har jeg fjernet dem manuelt. Resultatet fra Google var opprinnelig som dette:

Svenskene would end in October-november of last year’s journey to Thailand’s capital Bangkok and to the small Kingdom of Bhutan further north in Asia. De ba turoperatøren velge ut mer konkrete reisemål for dem, skrev Stockholm-avisen Svenska Dagbladet torsdag. They asked the tour operators pick and choose more specific destination for them, wrote the Stockholm-newspaper Svenska Dagbladet on Thursday. Osv…

Share

Windows Live lanserer automatisk oversetting

Google har hatt sin egen utgave, og Yahoo og Altavista har hatt det lenge gjennom babelfish. Endelig lanserer også Windows Live en automatisk oversetter. Den er så langt jeg kan se ikke like integret som hos Google og tar færre språk. Jeg har ikke fått fintestet den, men som de fleste slike automatiske tjenester oversetter også denne bare ord for ord, og ikke mening. Dermed kan det bli noen pussige utslag. Likefullt er det, om man tar det for det det er, et hendig verktøy for å orientere seg i informasjon på et språk man ikke forstår.

Share

Hør på Språkteigen

Som nevnt tidligere ble jeg intervjuet av P2s Språkteigen om hvordan språkbevissthet er viktig for hvor bra du søker på nettet. Nå kan du høre programmet på nettradio eller podcast. Velg 28. mai eller reprisen 3. juni på sidene til Språkteigen.

Share

Søk på et språk du ikke behersker

Googles oversetterverktøy har lenge gjort det mulig å lese sider på språk du ikke kan. Sammen med Googles news alters har oversetteren gjort det feks mulig å drive nyhetsovervåkning på fremmede språk og likevel få greit utbytte av det.

Nå tar Google dette et hakk videre og lar oversetterfunksjonen slå inn også når du søker. Du kan skrive et ord på engelsk og faktisk søke etter samme fenomen på andre språk.

Tjenesten er litt skjult på Googles sider men her finner du den.

Jeg har ikke fått testet dette noe særlig, men det aner meg at resultatene i visse tilfeller kan bli pussige. Problemene oppstår når søkeordene vi bruker er homonymer – ord som kan bety forskjellige ting.

For å ta et enkelt ord som “ball” – både på norsk og engelsk kan dette bety både en dansefest eller et utstyr for lek og sport. Velger man ball på engelsk får man kugel på tysk. Riktignok har du mulighet til å erstatte det oversatte ordet med et mer presist ord, men om du er språkkyndig nok til det trenger du strengt tatt ikke denne tjenesten.

Det hjelper lite om du prøver å klargjøre hvilken betydning du mener med å legge til et ord. Jeg prøvde å søke på ‘ball dance’, men det ble oversatt til tysk som ‘kugeltanz’. Sikkert en artig syssel, men søkeresultatene blir så som så.

Kanskje burde jeg skrive om overskriften på dette innlegget til “Søk på et språk verken du eller Google behersker”.

Share

Om språk og nettsøking

Sist jeg var i Trondheim ble jeg intervjuet av Ingri Garberg fra Språkteigen i NRK P2s om hvor viktig språkbevissthet er for å finne fram på nettet. Kort sagt: Jo bedre språkkunnskap og språklig kreativitet desto bedre muligheter for å google deg fram til det du er ute etter. Intervjuet kommer i Språkteigens sending klokka ni på morgenen andre pinsedag. Eller abonnér på podkasten fra programmet, eller hør på nettradioen til NRK .

Share