- CIO Sweden:

Nu kan du analysera data som giganterna

Av

Det är inte bara hos dig som datamängderna växer. För Twitter blev de så stora att man köpte upp ett helt företag, bara för att komma åt ny databehandlingsteknik.

Företaget ifråga hette Backtype och hade gjort sig känt för mjukvaran Storm, som kan analysera dataströmmar i realtid – såsom miljoner Twitterflöden. Till exempel kan den räkna ut hur brett en viss webbadress delas mellan olika Twitteranvändare i realtid, vilket är ett sätt att upptäcka trender precis när de föds.

– Det är väldigt intensiva beräkningar, som kan omfatta tusentals databasanrop och miljoner Twitterkonton, säger Nathan Marz, en av de högst ansvariga för Stormlösningen på Twitter.
Om man försöker göra det på en enda maskin kan det ta upp till tio minuter att beräkna spridningen av en webbadress. Men om man sprider ut det över tio maskiner kan det istället gå på några sekunder.

För ett företag som tjänar sina pengar på att snabbt fånga upp trender att sälja annonser mot kan den skillnaden vara väldigt stor. För även om Twitter är populärt bland användarna, genererar dessa inga pengar i sig. Bara en massa data – och Twitters väl och ve som företag beror beror helt på hur bra man utnyttjar de datamängderna. Som är rejäla: varje dag kommer ungefär 230 miljoner tweets.

Men du behöver inte vara Twitter för att förfoga över stora datamängder. Alla möjliga organisationer upptäcker nu att de sitter på jättemycket information som de skulle kunna dra nytta av för att öka vinsten och effektivisera processer. Om de bara hade rätt verktyg och kompetens.

– För oss är det definitivt en konkurrensfördel om vi blir bättre på att förstå vad folk bryr sig om och inte – och på att använda de data vi har för att skapa en relevant kundupplevelse, säger Aaron Batalion, CTO på ­e-handelstjänsten Livingsocial.

Här används redan nu en ny genera­tion tekniklösningar – så kallade big data-lösningar, som Apache Hadoop – för att förvandla ostrukturerade data till mer konkret information om vad användarna vill ha.

– En gång i tiden kunde man bygga en produkt och så var den färdig och bara funkade. Men den tiden är förbi. Idag måste man testa idéer i flera iterationer, och använda data och analys för att förstå vad som funkar och inte. Det är så man når framgång idag. Och det är så vi använder vår big data-infrastruktur, säger han.

I maj förra året släppte konsultjätten McKinsey & Co en rapport med spådomar om en veritabel syndaflod av data. De tittade på en rad branscher – allt från vård och offentlig sektor till detaljhandel och tillverkande industri – och spådde att i var och en av dem kunde man vinna stort på att analysera dessa stora datamängder.

Att samla in och analysera transaktionsdata kan ge bättre insikt om efterfrågan, vilket kan användas inte bara när man tar fram nya produkter utan även för att tackla problem snabbare, så fort de uppstår.

”Nyttjandet av »big data« kommer att bli en grundbult för konkurrens och tillväxt på det enskilda företaget”, sammanfattade rapporten.

Men det nya är förstås
inte stora datamängder i sig. Företag som
Teradata, Oracle och IBM har haft data warehouse-lösningar i terabyte-klassen på marknaden i mer än tio år. Det nya med det som kallas big data är att man jobbar med data i många olika format, som kan processas parallellt på flera servrar – vilket är nödvändigt med så stora volymer.

Det är alltså inte längre bara välordnade transaktionsdata från databaser, och noggrant insamlad information i datalager. Dagens företag samlar på sig oerhörda mängder loggdata och andra maskingenere­rade data, kundkommentarer från egna forum och sociala media, och andra slags ostrukturerade data.

Det är de mängderna som växer exponentiellt. Och problemet med all den här informationen är att det finns för mycket av den för våra traditionella databehandlingsmetoder.

– Traditionella datasystem hanterar helt enkelt inte stora volymer särskilt bra. Dels har de problem med variationen i informationen – dagens data är mycket mindre strukturerade eftersom de hela tiden utvecklas. Dels kan de helt enkelt inte skala upp till att ta in sådana mängder som det rör sig om, säger Eric Baldeschwieler, vd på Hortonworks, ett företag som knoppats av från Yahoo och säljer big data-lösningen Hadoop.

Som science fiction-författaren William Gibson brukar säga: framtiden är redan här, den är bara ojämnt spridd.

Som modeord må ”big data” vara nytt, men online-jättar som Google, Amazon, Yahoo, Facebook och Twitter har legat i framkant länge vad gäller att utnyttja stora datamängder.

De goda nyheterna för den
som inte är Google eller Amazon är att många av deras verktyg, som de tagit fram eller vidareutvecklat själva, nu börjar finnas tillgängliga för var och en som öppen källkod. Google och Yahoo har haft var sitt finger med i utvecklingen av analysplattformen Hadoop – tekniker från Facebook var med och tog fram den distribuerade databasen Cassandra.

Båda är idag öppen källkod under Apaches paraply. Och även Storm, som Twitter köpte, har släppts som öppen källkod: när lösningen väl var på plats i den egna it-miljön hade företaget inget intresse av att försöka göra pengar på den på andra sätt.

Det här är lösningar som inte tar fram en undermängd användardata, skrubbar dem rena och lägger dem i ett data warehouse där man kan analysera en enda egenskap hos dem. Big data-lösningar bara samlar in all information som skapas i och kring ett företag, så adminstratörer och analytiker kan fundera ut hur de ska använda dem. På det sättet är lösningarna mer skalbara än traditio­nella databaser och data warehouse.

Snabbare kan de också vara, åtminstone för riktigt stora körningar, eftersom analysen kan distribueras över flera samtidiga maskiner.
Det här är ett paragidmskifte inom datahantering, enligt Jack Norris, marknadschef på big data-företaget Mapr. Tidigare har man samlat in data efter konstens alla regler och skickat dem över nätverket till ett data warehouse, där man sedan kunnat studera dem i detalj.

– Men med större datamängder blir nätverket flaskhalsen, säger han.

Fördelen med distribuerade system som Hadoop är att man kan analysera data där de är, istället för att skyffla dem genom nätverket.

Hadoop tar sin början i ett white­­paper från Google. Året är 2004 och det handlar om hur man analyserar data på många olika servrar med hjälp av ett nytt indexeringsschema, som får namnet Big Table.

Utvecklaren Doug Cutting ville implementera Big Table i ett öppen källkods-projekt, och i sann öppen källkods-anda döpte han projektet efter sonens gose-elefant: Hadoop.

En av de första användarna var Yahoo, som anställde Cutting 2006 och började ösa resurser över honom.

– Yahoo hade väldigt mycket intressanta data runt om i företaget, men det var utspritt över många
olika system, berättar Cutting (som idag jobbar på Hadoop-leveran­törenCloudera).

– Vi lärde oss hur svårt det är att bygga distribuerad mjukvara som är verkligt robust. För varje steg man tar för att distribuera någonting finns det ett otal saker som kan gå snett. Så mjukvaran måste kunna hantera alla sådana missöden.

Yahoo är idag en av de största Hadoop-användarna: där rullar mjukvaran på mer än 40 000 servrar. Hadoop-kluster lagrar enorma loggar över vilka artiklar och undersajter surfarna klickar på, allt som rör annonser loggas i Hadoop-kluster, liksom listor på allt innehåll som publiceras i Yahoo-nätverket.

– Hadoop är ett suveränt verktyg föra att organisera och kondensera stora datamängder innan de stoppas in i en relationsdatabas, säger Curt MonashMonash Research.

– Något som det är särskilt väl lämpat för är att söka efter mönster i stora textmängder.

En annan big data-teknik som föddes hos en av online-jättarna är Cassandra. Det är en distribuerad databas som kan ligga spridd över flera olika servrar, så att den går bra att skala upp. Den kan lagra upp till två miljoner kolumner i en enda rad – vilket är bra om du vet att du kommer att vilja samla på dig massor av data om varje användarkonto, men inte vet vad för sorts data det kommer att bli.
Vem behövde en sådan lösning? Just det, Facebook!

Och precis som Yahoo ville man använda Googles arkitektur Big Table, berättar Jonathan Ellis, som var med när det bagav sig och idag leder Cassandra-projektet i Apaches regi.

I Big Table gick det att bygga en databasstruktur med rader och kolumner som kunde spridas över flera noder. Men problemet med Big Table, insåg man, var att den byggde på en så kallad master-nod. Hela den stora databasen var beroende av en enskild nod som koordinerade alla läsningar och skrivningar på alla andra noder. Så om den noden kraschade blev hela systemet värdelöst.

– Det är inte optimal design, konstaterar Ellis. Om en maskin går ner vill man ju att de andra ska fortsätta.

Så Ellis och hans kolleger byggde Cassandra med en distribuerad arkitektur från Amazon istället: Dynamo. Den hade Amazon tagit fram 2007 för att ha koll på vad alla miljoner kunder fyllde sina varukorgar med. Här används in­gen master-nod, utan varje nod kan såväl ta emot indata som svara på förfrågningar. Data är replikerade på flera maskiner.

Idag används sådana här lösningar mer och mer utanför de stora onlinebolagen. Finansbolag, teleoperatörer, myndigheter, detaljhandel och elbolag är alla inne och nosar på big data, noterar Baldeschwieler.

– Det ligger i luften att det här är oundvikligt nu, skryter han. Det har tillämpningar hos så många olika kundgrupper!

Ett företag som blivit big data-frälst är kreditkortsbolaget Citigroup, som knoppat av ett helt nytt företag, Bundle.com, som har till uppgift att rekommendera restauranger och affärer till kreditkortskunderna. Till grund för rekommendationerna ligger transaktioner från 25 miljoner kreditkort – som analyseras med Hadoop.

– Att ha en stor hög data är inte så användbart. Du måste kunna ställa rätt frågor och behandla data på rätt sätt för att göra en meningsfull analys, säger Phil Kim, CTO på Bundle.

Så, om vi vill dra nytta av våra högar med maskin- och kundgenererade data – var ska vi börja?

Tvärt emot vad man kanske skulle tro blir infrastrukturen inte den största utmaningen. Leverantörer som Cloudera, Hortonworks, Mapr och andra som kommersialiserar big data-lösningar gör dem lättare och lättare både att införa och använda.

Nej, det svåraste blir att hitta folk som klarar av att analysera informationen, säger James Kobielus Forrester. Företag måste börja foku­sera på det som på engelska kallas data science. Det behövs folk som kan åsiktsanalys (”sentiment analysis”), text mining och inte minst statistik.

– Big data står och faller på bra modellering. Utan statistiska prediktiva modeller och analysmodeller kan du inte göra big data, säger han.

Många bedömare tror
att big data-paradigmet kommer att skapa en helt ny sorts datavetare – som både behärskar it-biten och har djupa kunskaper i matematik och statistik.Och sådana finns det inte många av idag. År 2018, enligt siffror från Mc­Kinsey & Co, kan efterfrågan på sådan personal bara i USA komma att överstiga utbudet med upp till 190 000 personer. Dessutom spår man en brist på 1,5 miljoner chefer och analytiker med kompetens att ta bra beslut baserat på big data-analys.

Därför är det läge att satsa idag, tycker Norris på Mapr. Det gäller att fixa konkurrensfördelar. Som exempel pekar han på Google, som slog sin in på webbsök flera år efter konkurrenterna och skaffade sig total dominans på bara 24 månader.

– Google har sin back end-arkitektur att tacka för mycket av framgången, säger Norris.

– Och där, i Googles historia, ser vi att big data är ett paradigm som har potential att förändra hela branscher, lägger han till. ]

Av: Joab Jackson
Översättning: Johan Wikberg


Gratis nyhetsbrev -- Nyheter från CIO Sweden i din e-post varje vecka

Whitepaper: Konvertera snack till pengar


Vi håller just nu på att uppgradera våra kommentarsystem. Mer info om hur du kommenterar och kommer åt dina gamla kommentarer hittar du på vår FAQ: idg.se/faq

Artikelkommentatorerna ansvarar själva för sina inlägg.

OBS! Läs dessa regler som gäller vid postning av inlägg.

Regler för inlägg i artikelforumet

Kommentatorn ansvarar själv för sina inlägg. Inlägg som innehåller diskriminerande uttalanden, personliga påhopp eller språk som kan uppfattas som stötande, kommer att tas bort av tjänstgörande redaktör. Även datorkrigsinlägg och inlägg som är utanför ämnet, kan tas bort.

IDG förbehåller sig dessutom rätten att i varje enskilt fall bedöma huruvida ett inlägg ska tas bort, även om det inte faller under någon av reglerna ovan.

Upprepat postande av olämpliga inlägg kan medföra avstängning från artikelforumen.

Frågor? Mejla till redaktören, carl.grape@idg.se.

Läs mer om vår policy i diskussionsforum

Senaste nytt


Fler nyheter från CIO Sweden

- CIO Sweden:

Myndigheter vill ha tillgång till användardata


- CIO Sweden:

Allt fler annonserar i webb-tv


- CIO Sweden:

Nytt program ska hjälpa studenter med adhd


- CIO Sweden:

Ny app håller koll på övertiden

Ny app håller koll på övertiden


- CIO Sweden:

Verktyget som ska underlätta framtidens stadsplanering


- CIO Sweden:

Korkat med e-röstning, tycker KTH-professorn


- CIO Sweden:

5 it-roller för framtiden


- CIO Sweden:

Missnöje med it-budgeten i offentlig sektor

Missnöje med it-budgeten i offentlig sektor


- CIO Sweden:

Robert Lisborg, it-chef på Kristdemokraterna

Digitala kanaler ställer nya krav på KD:s it-arbete


- CIO Sweden:

Obehöriga fiskar hemlig information hos Miljöpartiet


- CIO Sweden:

Kaj Johansson

Vänsterpartiets it-chef: "Kraven på driftssidan ökar under ett valår"


- CIO Sweden:

Dataintrång

Dataintrånget blev ett bryskt uppvaknande


- CIO Sweden:

Leadership

Konsten att delegera rätt


- CIO Sweden:

Rikard Lidén, ny chef för it, inköp och supply chain hos Jetpak Group

"It kan aldrig bli viktigare än kunden"


- CIO Sweden:

CIO:er måste släppa ifrån sig en del av makten


- CIO Sweden:

8 tips för att bli en bättre karriärförhandlare

8 tips för att bli en bättre karriärförhandlare


- CIO Sweden:

Så jobbar Centerns it-avdelning inför valet


- CIO Sweden:

Johan Kroon

"Många intressen att ta till vara i en outsourcing-process"


- CIO Sweden:

Så tänker den nya it-generationen


- CIO Sweden:

It-chefer ofta missnöjda med ledningens beslut

It-chefer ofta missnöjda med ledningens beslut

Poddradio

Karriärpodden

Nästa event

CIO Awards 10 år

Nytt nummer ute nu

CIO Sweden 4/2014

Arena för IT

Månadens CIO

- CIO Sweden:

Stolt e-förvaltare styr SSM:s it

Annons: Partnerkrönikor

Outsourca rätt!


Att ge av det man är bäst på

CIO Lägesrapport

Bio med CIO

Krönikor

- CIO Sweden:

Titta mot Vintergatan för att förbättra er enterprise arkitektur


- CIO Sweden:

Spegel, spegel säg mig vilken arkitektur jag får


- CIO Sweden:

Stabil och dynamisk arkitektur - finns det?

CIO-bloggat

Mest läst just nu


CIO överallt

CIO Sweden på:           

Artikelarkivet

CIO överallt


Håll koll med våra nyhetsbrev – CIO-brevet, Ledarskap & Styrning och SOA/EA. Anmäl dig här!

Köp CIO Sweden som PDF i IDG Shop.

Följ oss på:           





Aktuella event

Rekryterar just nu

Har du synpunkter på sajten? Kontakta sajtansvarig Alexandra Heymowska.

Kontakta CIO Sweden
  Adress: Karlbergsvägen 77, 106 78 Stockholm.
Telefon: 08-453 60 00 [Karta
  Om cookies, personuppgifter & copyright

Copyright © 1996-2012 International Data Group