Visst, i Hadoops barndom var det bara webbjättar som Yahoo som hade råd med den armé av tekniker som behövdes. Men mjukvaran har utvecklats och blivit betydligt mer användbar för företaget med mer modesta resurser.

Hadoop är öppen källkod under Apache Foundation. Det är uppe i version 1.0 och börjar få seriös kommersiell uppbackning.

Startupper som Cloudera, Mapr och Yahoo-avknopppade Hortonworks erbjuder kommersiella distributioner, IBM har byggt in det i analys­paketet Biginsights, Microsoft använder det i molntjänsten Azure och Oracle paketerar det som sin Big Data Appliance.

Big data måste inte vara Hadoop. Ett annat verktyg som vinner mark är sökverktyget Splunk, som kan användas för att söka och analysera maskingenererade data, till exempel loggfiler. Det började som ett program för felsökning, men fler och fler använder det nu för andra sorters analys.

– Vad du än kan få ut för loggfiler så är chansen stor att du kan vara behjälpt av Splunk,säger Curt Monash på Monash Research.

Och Lexisnexis, en jätte inom juridisk information, har släppt sin egen analysplattform HPCC som öppen källkod. Den kan vara ett annat alternativ. Ett tredje heter Marklogic Server, en databas speciellt framtagen för ostrukturerade data.

Big data är bara en komponent av flera i en större data- och analysmiljö.
– Big data är mer än bara ett Hadoop-kluster. Det är en övergripande informations­arkitektur, det är ett ekosystem som är byggt för att fatta beslut utifrån dataanalys, säger George Lumpkin, chef för data warehousing på Oracle.

Han anser att Hadoop måste integreras med data warehousing och databaser. Oracles eget Hadoop-erbjudande, Big Data Appliance, har en rad färdiga kopplingar till andra Oracle-produkter som Exadata och Oracle Exalytics.

Du kan hitta användbara data överallt. Spontant kanske du inte tror att du har flera petabyte som är värda att analysera – men det är bara en tidsfråga innan du inser det. Big data är insamlade data som tidigare brukade ”bli liggande på golvet”, säger Eric Balde­schwieler på Hortonworks.

Ett typiskt exempel är logg­filer från servrarna. En webbserver håller reda på vem som besöker en webbsajt och vilka sidor de tittar på. Den typen av data kan ge nya insikter om kunderna och vad de efter­frågar. Logganalys är visserligen inget nytt, men idag kan man få fram otroligt mycket mer detaljer.
Amerikanska National Public Radio gick till exempel över till Splunk när de ville veta mer än deras van­liga webbanalysmjukvara
kunde berätta.

En annan stor bit kommer att vara sensordata. I åratal har analytiker talat om ett kommande ”tingens internet” där billiga sensorer hela tiden strömmar data om allt möjligt – bilar, broar, läskautomater. Och tack vare teknikutvecklingen kanske allt som är möjligt att mäta snart också är värt att mäta. IDC uppskattar att det redan 2015 säljs fyra miljarder uppkopplade sensorer, så kallade ”intelligenta system”.Och allt data de ger ifrån sig kommer att behöva analyseras.

– Det verkliga värdet av de enheterna är att de kan samla in datat, analysera informationen och driva affärseffektivitet, säger Kevin Dallas, som är chef för Windows Embedded på Microsoft.

Big data måste inte organiseras i förväg. Om du är van att planera i detalj vad som ska och inte ska in i ditt data warehouse, då kan du andas ut en smula med en big data-lösning. Här är regeln att samla in först, och fundera senare på hur du ska använda det.

Med en data warehouse-lösning måste du skapa datascheman innan du kan börja fylla dem med data.

– Det betyder i princip att du måste veta på förhand vad du är ute efter, säger Jack Norris på Mapr.

– Då brukar det bli att man plattar ut data och förlorar detaljer. Om du ändrar dig i fram­tiden, då finns det gränser för vad du kan se gränser som du själv har satt. Istället kan du dumpa allt i en big data-lösning och köra analys ovanpå, och se efteråt hur det hänger ihop. I många fall vet man inte vad man letar efter förrän man har samlat in data, så den friheten är verkligen en ”big deal”. ]