Internet är en underbar uppfinning. Inte minst den del som kallas World Wide Web, eller webben, och som gör det möjligt att söka sig fram i en grafisk miljö via hyperlänkar. Det funkar på många sätt utmärkt – för oss människor.
Vi kan presentera dokument som visas på skärmar runt om hela jordklotet och andra människor kan, förutsatt att det språk som används är begripligt för båda parter, ta del av informationen.
Men för maskinen är det värre. Webben av idag är läsbar för maskiner. Men den är inte förståbar.
För att ta ett enkelt exempel – du kan skicka ut en sökagent som letar reda på den billigaste resan till Paris från Stockholm. Agenten kan hitta priser från flera olika flygbolag för de aktuella datumen. Men mer än så blir svårt.
Du kan exempelvis inte skicka ut en agent som tar hänsyn till hur din kalender ser ut eller ändras.
Att resa från Stockholm kan dessutom vara ett vitt begrepp.
Det kan innefatta allt från Arlanda och Bromma till Skavsta och Västerås om bara priset är rätt. Och själva avgångstiden kanske egentligen inte är det viktigaste, utan färdtiden till flygplatsen kanske borde vägas in för att du ska kunna hitta den flight som bäst svarar mot när du vill lämna stan.
Allt det här är information som finns där ute. Men på olika ställen – och våra maskiner förstår det inte. Inte än i varje fall. Men hyfsat snart kan det komma att se annorlunda ut, enligt forskarna.
Tim Berners-Lee brukar ofta kallas webbens fader, då han uppfann webben som vi känner den idag. Idén om hyperlänkar kan visserligen spåras tillbaka så långt som till 1945 och en artikel av Vannevar Bush, Franklin D Roosfeldts vetenskaplige rådgivare, men 1990 skrev Berners-Lee den första webbläsaren kallad Nexus.
Idag är han bland annat ordförande för World Wide Web-konsortiet, W3C, samt forskare vid MIT-universitetet i Boston. Han har fått en rad prestigefyllda utmärkelser och den 16 juli 2004 adlades han i hemlandet Storbritannien för sin insats.
Så det är ingen slump att de flesta IT-intresserade lyssnar till vad han har att säga. Inte minst när det gäller hans senaste projekt som handlar om hur maskiner ska bli bättre på att förstå information på webben.
Han kallar det web 2.0. Eller den semantiska webben.
– Den semantiska webben ger struktur åt innehållet på webbsidor. Den skapar en miljö där mjukvaruagenter kan utföra sofistikerade uppgifter åt sin användare – söka igenom sida efter sida i jakt på information.
– Och den kommer klara allt detta utan att använda artificiell intelligens i stil med Hal i 2001 eller C-3PO i Star Wars.
Så skrev Berners-Lee själv när han presenterade sin idé om den semantiska webben i Scientific Americans majnummer 2001.
Den semantiska webben är, enligt Berners- Lee tänkt som en förlängning av den befintliga webben snarare än som en helt ny webb. Den ska göra livet enklare för oss människor men framför allt göra mänsklig inblandning onödig i många av de rutinärenden som idag kräver handpåläggning.
Ett annat sätt att uttrycka det är att den semantiska webben är ett initiativ för att tillåta klyftigare webbläsare och i förlängningen autonoma webbagenter.
Så ser visionen ut och enligt Berners-Lee är det nog i sig för att betecknas web 2.0.
– Vad är killer appen för semantisk webb, brukar de jag förklarar för fråga. Svaret är givet: den semantiska webben är sin egen killer app, skriver han i Scientific American.
Tekniskt sett har visionen om den semantiska webben, eller i alla fall delar av den, kommit närmare för varje år – även om den i många avseenden befinner sig i sin linda. Inom W3C-konsortiet arbetar en särskild grupp med utvecklingen av den.
Ytterst handlar det om att förfina metoderna för att klassificera information på metanivå. Framför allt ska varje enskild länk, eller länktyp, märkas upp så att den blir meningsfull och sökbar.
– Tanken är att länkar mellan dokument ska vara beskrivna och typologiserade: ”det här är en prislänk”, ”det här är en utvidgning-av-resonemanget-länk”, ”det här är en karta-över-den-nyss-nämnda-platsen-länk”, förklarar Jussi Karlgren som är forskare i informationsåtkomst på SICS i Stockholm.
Detta skulle i sin tur bli en grund för nästa generations webbläsare. En webbläsare av idag gör ingen skillnad på olika typer av länkar eller olika sorts information: dess uppgift är att hämta dokument, visa dem, och vänta på att användaren vill ta sig vidare till ett annat dokument.
Men om de länkar som är viktiga i dokument skulle specificeras enligt ovan tillåter det förstås webbläsaren att göra en del smarta beslut – som att jämföra flygresor i det inledande exemplet.
– Svårigheten är givetvis att bestämma vilka sorters länkar som är rimliga att använda och hur länkarna ska fås på plats, ska de ordnas av mänskliga författare eller kopplas automatiskt, säger Jussi Karlgren.
Evolutionen inom semantisk webb kan härledas från html och xml till något som kallas RDF, Resouce Description Framework. Html märker som bekant bara upp hur information presenteras på webben, medan xml även beskriver vilken typ av innehåll det rör sig om.
RDF kan i sin tur beskrivas som en xml-tillämpning för att knyta metadata till dokumentinnehåll på en mer detaljerad nivå. Och medan xml används för att märka upp ny information kan RDF även användas för att märka upp gamla dokument.
Den nya informationen kan läggas inuti dokumentet ifråga eller i ett beskrivande dokument utanför, vilket är ett mer kostnadseffektivt sätt att göra den sökbar än att börja om från noll.
Än så länge låter allt ganska enkelt. Information som märks upp på metanivå för att göras begriplig för maskintolkning – visst. Men då stöter vi raskt på nästa problem. Hur beskriver vi, på ett enhetligt sätt, vad exempelvis en resa är? Hur särskiljer vi en tur från en resa, färd eller strapats? Är resa beroende av de transportmedel eller kan den företas utan?
Problemet är närmast filosofiskt och för dess lösning används också ett låneord från filosofin: ontologi (av grekiskans ontos ”varande” och logia ”lära”). Inom filosofin står det för läran om hur världen är beskaffad, inom datavetenskap för systematiserade begreppsmodeller av verkligheten – i fallet semantisk webb används det ofta för grupper av beskrivande ord, eller språkrymder.
I klartext: för att kunna beskriva innehållet i en specifik grupp data måste man enas om en språkrymd. Det gör man i beskrivande dokument – ontologier. Arbetet med att skapa gemensamma språkrymder har, i mindre skala, pågått i flera år i utvecklingen av xml-standarderna.
Branschspecifika uppsättningar som XMLSaw för skogsindustrin eller nyhetsbranschens NewsML har kunnat ena åtminstone delar av världen om vad som är vad. Slutmålet för den semantiska webben är, teoretiskt sett, att ena alla om allt.
Arbetet med att skapa ontologier i större skala har framför allt bedrivits i biblioteksvärlden där man har lyckats enas runt standarden Dublin Core. Det är en uppsättning metadata-begrepp som har utvecklats sedan 1995 och som idag är en sorts defacto-standard för semantiska webb-lösningar.
För att skapa en världsomspännande semantisk webb skulle det krävas att all världens innehåll enades runt en gemensam begreppsuppsättning, en universalontologi. En i det närmaste omöjlig tanke som knappt ens får stöd hos Tim Berners-Lee själv.
Realistiska bedömare tror istället att det kommer att skapas isolerade öar av begriplig information, öar som sedan kan växa och ibland växa ihop. Erik Wallin är en svensk sådan bedömare som har doktorerat på KTH och dessutom bildat bolag runt delar av idéerna.
Adapt Logic hjälper idag företag att personalisera webbinnehåll och delar av det arbetet bygger på semantisk webb.
– Jag tror på öar. Min erfarenhet är att det är oerhört jobbigt att bygga en ö. Tänk då vad som krävs för en hel webb, säger han
Och inte nog med arbetsinsatsen. Politiska och ekonomiska motsättningar hotar förmodligen att omöjliggöra Berners-Lees vision.
– Företag kommer att slåss. Kommer Reuters att vilja köra samma ontologi som MSNBC? Tveksamt, spår Wallin.
Även Jussi Karlgren tror på idén om semantiska öar, inte minst för att en totallösning lägger för tungt ansvar på den som publicerar information istället för på den som söker.
– De som publicerar ska inte behöva stoppas av en massa manuellt kategoriseringsarbete. Det intressanta vore i så fall om kategoriseringen kunde automatiseras, säger han.
Men bara för att mycket pekar mot att det aldrig kommer att skapas en enda enhetlig semantisk webb, betyder inte det att idéerna förtjänar att kastas på soptippen. Tvärt om, intresset är stort och många stora IT-bolag ser över möjligheterna. På HP har man forskat på området under fem års tid.
– Vid den tidpunkten jobbade vi med medie-tjänster, berättar Dave Reynolds som är forskare på HP Labs i Bristol.
– Men vi insåg snabbt att tekniken gick att använda till mycket mer än media.
Idag har HP tagit fram två verktyg: Jena och Joseki. Jena är en RDF-server och Joseki är ett webb-API för Jena. Båda är släppta under open source och nu hoppas bolaget att de börjar användas av utvecklarna så att HP får sin del av den framtida semantisk webb-kakan.
HP:s syn på tekniken är nämligen att det är något man kan bygga affärer runt.
– Idag görs integrationslösningar ofta med proprietära lösningar som suger information ur flera källor. Semantisk webb skulle kunna förenkla systemintegration, spår Reynolds.
Företag inom hälsa och sjukvård samt institutioner som sysslar med kulturminnesvård, exempelvis museer och arkiv skulle exempelvis kunna ha stor nytta av tekniken.
– De har ett stort integrationsarbete framför sig, och får en spännande möjlighet att ena flera separata datakällor, säger han.
Flummigt snack om RDF och ontologier kommer dock inte att sälja den semantiska webben till beslutsfattare. Det har en anhängare som Bill Ruh, senior chef på Cisco insett. Därför försöker han istället visa hur semantisk webb kan lösa affärsproblem.
– Lagar och förordningar, exempelvis Sarbanes-Oxley, handlar ofta om att länka ihop data med processer. Det är den semantiska webben bra rustad för att klara, säger han i en intervju med Internetnews.
Bill Ruh pekar också på att en semantisk webb skulle kunna klara av att svara på frågor som: Vilken är vår största kund? Vilka inkomster får vi från kunden X i våra olika divisioner? Vilka säljare har mest kontakt med kund X? Och så vidare.
Om det blir så får framtiden utvisa. Skaparen, Tim Berners-Lee, är fortsatt positiv:
– Idag är vi vid en punkt där vi börjar vänja folk vid semantisk webb i liten skala. I framtiden slipper vi förhoppningsvis all mellanvara, då de flesta produkter är kompatibla med den semantiska webben, sade han vid en W3C-konferens i december 2004.
Den som lever får se.
Av: Robert Brännström
cioreporter@idg.se
RDF: Resource Description Framework, en standar för metadata.
OLW: Web Ontology Language.
http://dublincore.org