Det råder ingen tvekan om att det går snabbt nu – big data, maskininlärning, djupinlärning, datavetenskap – utbudet av teknik och verktyg för att analysera stora datamängder expanderar i rekordfart. Oavsett om det gäller att analysera kundernas beteende, hitta nya affärsmodeller, upptäcka hot eller hålla koll på prestanda i systemen kommer de till pass. Datadrivet är det som gäller.
Här tar vi en titt på tio verktyg, tekniker och strategier som är heta och fem som redan börjar svalna, för allt från affärsanalytiker till datavetenskapare.
Hett: BI med självbetjäning
Med självbetjäningsverktyg för BI, som Tableaux, Qlik Sense, Power BI och Domo, kan chefer numera själva ta fram – och konsumera – aktuell information i grafisk form. Det kan krävas lite handpåläggning från it för att sätta upp verktygen och lägga till datakällor, men det mesta arbetet med att tvätta data och skapa analyser kan göras av affärsanalytiker, och analyserna kan uppdateras automatiskt utifrån aktuella data varje gång de öppnas.
Användaren kan sedan interagera grafiskt med analyserna för att identifiera sådant som måste åtgärdas. I en BI-dashbord (eller ”story”) om försäljningssiffror kan det innebära att borra sig ner till underpresterande butiker, säljare eller produkter, eller hitta trender i jämförelser från år till år. Sådant kan vägleda beslut om framtida lagerhållning, befordringar och nyetableringar.
Hett: Mobila dashboards
Chefer sitter inte så ofta vid skrivbordet längre, så managementverktyg måste ha mobilvänliga ”dashboards”. De flesta självbetjäningsverktyg för BI har redan det, men det är inte säkert att alla viktiga mätetal går genom något sådant BI-verktyg.
En fabrik har till exempel ofta ett dedikerat QA-system som håller björnkoll på alla produktionslinjer. Om någon av dessa går utanför feltoleransen måste alla chefer få veta det så snart som möjligt; det görs enkelt med en app som frågar QA-databasen varje minut och visar ett uppdaterat styrdiagram, och dessutom kan larma när något oförutsett händer.
Svalt: Hadoop
För inte så länge sedan var Hadoop svaret på frågan ”hur ska vi lagra och behandla riktigt stora datamängder?”. Idag är det mer svaret på ”Hur många rörliga delar kan man pressa in i ett system innan det blir omöjligt att underhålla?” ...
Apache Hadoop-projektet i sig utgörs av fyra moduler: Hadoop Common, Distributed File System, schemaläggaren Yarn och Hadoop Mapreduce för parallell behandling. Ovanpå det används ofta ett eller flera besläktade projekt: Ambari för klusterhantering, Avro för serialisering, Chukwa för datainsamling, Hive för data warehouse, Mahout för maskininlärning, Spark för beräkningar, och så vidare.
Dessutom vill tredjepartsleverantörer vara med och addera värde: Amazon (Elastic Map Reduce), Cloudera, Hortonworks, Microsoft (HDInsight), Mapr, och SAP Altiscale. Hänger du med ...?
Hett: språket ”R”
När det gäller statistisk dataanalys är gratisspråket R en av de smidigaste och mest kraftfulla metoderna. Språket med tillhörande resurspaket erbjuder ett så brett utbud av statistiska metoder att om en teknik över huvud taget finns, så finns den sannolikt också implementerad i ett R-paket. R är nästan lika starkt i sitt stöd för maskininlärning, men är nog inte förstahandsvalet när det gäller djupa neuralnät, som kräver högre prestanda än vad R kan erbjuda idag.
Läs också: Kom igång med heta språket – R du redo för R?
R finns gratis som öppen källkod, och är inbakat i många kommersiella produkter, däribland Microsofts Azure Machine Learning Studio och SQL Server 2016.
Hett: Deep neural networks
Bland djupinlärningsalgoritmerna är DNN, djupa neuralnät, de mest kraftfulla. Det är neuralnät med många lager av omväxlande linjär och icke-linjär behandling, som tränas upp med hjälp av storskaliga algoritmer och massiva datamängder. Ett djupt neuralnät kan ha 10–20 dolda lager där det typiska neuralnätet bara har några stycken.
Ju fler lager nätverket har, desto mer kan det känna igen. Tyvärr går det också långsammare, och är svårare att lära upp. Bland paket för att bygga djupa neuralnät märks Caffe, Microsoft Cognitive Toolkit, MXNet, Neon, Tensorflow, Theano och Torch.
Svalt: Internet of things
IoT kan vara den största it-hajpen någonsin – och det värsta som någonsin hänt för säkerheten på internet. IoT ska ge oss smarta hem och butiker, elnät, städer och kläder. Upp-kopplade fabriker och bilar, vård i hemmet. Mycket av det här skulle vara jättebra om det bara var bombsäkert implementerat, men så har inte varit fallet än.
Många leverantörer har gjort ödesdigra misstag i produkterna. En del prylar har bara funkat om de haft fungerande internetuppkoppling och förbindelse till leverantörens servrar, och sedan har leverantören lagt ner supporten – så till exempel Sony med sin Dash och Nest med vissa äldre produkter.
Att ha en server på internet med i loopen kan också introducera oförutsägbara fördröjningar som kan påverka stabiliteten. Och i brådskan med att koppla upp sakerna på internet har leverantörerna lämnat sårbarheter blottade för hackare. Bilar har tagits över, hemmaroutrar har dragits in i DDoS-ande botnät, och till och med elnät har tagits ner i vissa områden.
Hur långt måste det gå innan de uppkopplade prylarna blir säkra? Varför bryr sig inte leverantörerna?
Så länge säkerheten förblir eftersatt kommer den utlovade dataanalysen med IoT inte att vara värd riskerna.
Hett: TensorFlow
Tensorflow är Googles open source-bibliotek för maskininlärning och neuralnät, och ligger till grund för de flesta av Googles egna till-lämpade maskininlärningstjänster. Google Translate, Maps och Apps använder samtliga Tensorflow-nät, och Tensorflow ligger bakom maskininlärnings-api:erna för Google Cloud Natural Language, Speech, Translate och Vision.
Läs också: AI-assistenten Amelias pappa ser inga gränser – ”AI gör världen vackrare”
Det är dock först efter en avsevärd inlärningströskel som dataanalytiker kan använda Tensorflow. Men det är djupt flexibelt, portabelt på allvar, det kan koppla ihop forskning med produktion, och dra nytta av grafikprocessorer för extra prestanda.