I årtusenden har rösten varit vår främsta informationsbärare. Redan under antiken var rösten avgörande för de olika retoriska uttrycken. Att läsa något tyst för sig själv ansågs ofint och som att man ville dölja något. Symboler, runor och skriftspråk kom till som ett sätt att minnas, bevara, och som ett stöd till det vi ville säga högt. Och det var viktigt att de som kunde läsa skulle dela med sig eftersom böcker var en handskriven lyxvara fram till 1400-talets boktryckarkonst. Först så sent som på 1700-talet började den muntliga kulturen försvagas till förmån för det massproducerade, skrivna och mer lättillgängliga ordet.

En hel del har hänt sedan dess. Vi har genomgått en rad olika industrialiseringsfaser som gjort informationsspridningen global, ultrasnabb och gränsöverskridande. Internets framväxt såg kanske ut att göra oss mer bundna vid skriftspråket än någonsin tidigare, men kommunikationsvägarna fortsätter istället att föröka sig. Det har blivit ännu lättare att kommunicera med andra och samtidigt förbli anonym, vilket gett upphov till mindre önskvärda nätbeteenden. Utan talet som en lika viktig komponent har det blivit svårare att identifiera vem som faktiskt säger vad, och med deepfakes i olika former har det samtidigt blivit lättare att få det att se ut som att någon säger något som den aldrig gett uttryck för.

Som med all teknikutveckling under snabb framfart öppnar rösttekniken upp för nya möjligheter att kommunicera, men också nya möjligheter till missbruk när reglering och kontroll av systemen inte hinner ikapp. Forskare har till exempel tränat neurala nätverk i att ta fram ”voiceprints” från ett språk till ett annat och MIT Technology Review rapporterade nyligen att Googles AI nu kan översätta vad du säger till ett annat språk så att det låter som att du säger det med din egen röst – utan att du egentligen behöver ha några som helst kunskaper i språket i fråga. Det här gör frågorna kring transparens, personlig integritet och säkerhet viktigare än någonsin.

Rösten är inte längre bara en viktig informationsbärare för och mellan oss själva, utan även för maskinernas egna uttryck, i takt med den artificiella intelligensens framfart. En PwC-undersökning från 2018 visade att 72 procent av amerikanerna använder röstaktiverade produkter och tjänster, främst i sina hem. Och researchbolaget Ovum förutspår att över 20 miljarder röstaktiverade assistenter kommer att användas världen över år 2021. De digitala assistenterna blir samtidigt mer och mer människolika i sitt språk, tack vare utvecklingen inom Natural Language Processing (NLP).

När Google tidigare introducerade Duplex – där systemets AI gjort att det är svårt för ett mänskligt öra att skilja en artificiell röst från en mänsklig sådan – var det många som lyfte de etiska dilemman som kan uppstå. Sedan dess har man också förtydligat att oavsett eventuell form som Duplex tar kommer man att se till att personen i andra änden alltid vet att han eller hon faktiskt pratar med ett AI-gränssnitt. I Kalifornien har man till och med en ny lag som innebär att chattbottar och AI-gränssnitt måste identifiera sig som sådana när de interagerar med konsumenter.

Samtidigt som röststödd teknik har gjort ett brett intåg på konsumentmarknaden, halkar företagssektorn efter. Pindrops Voice Intelligence Report från 2018 visar att 28 procent av de tillfrågade företagen tagit sig an röstteknik för att förbättra kundupplevelser och ytterligare 57 procent befinner sig i ett planeringsstadium. Trots att allt fler företag kommer till insikt med att den röststödda tekniken är en viktig del i hur de interagerar med kunder och anställda pekar branschanalytiker på att det varit svårt att navigera kring tekniken ur säkerhets- och integritetshänsyn. Samtidigt sitter många med äldre företagssystem som inte initialt utformats för att interageras med röstlösningar.

Det här är en artikel från Expert Network »

Jag skulle vilja argumentera för att den främsta anledningen till att tekniken inte gjort ett lika brett intåg på företagssidan ännu beror på att röstassistenterna vi börjat använda i vardagen inte varit särskilt intelligenta. Därför har den typen av teknik varit svår att motivera och implementera ur ett affärsvärdesperspektiv med höga krav på att uppnå särskilda affärsmål och att möta förväntningar på kundupplevelser. För företagen blir det alltså särskilt viktigt att fokusera inte bara på tillgängligheten av den röststödda tekniken utan också intelligensen bakom den, särskilt då företagskunder behöver mer än tillgång till produkter som kan ge statiska svar på relativt enkla frågor.

Maskinerna har blivit fantastiskt bra på att prata och att dela information, men frågan är hur bra de är på att lyssna och faktiskt handla därefter? För att uppnå ett affärsvärde behöver dessa tjänster inte bara kunna förstå enklare meningsutbyten utan också avsikter, nyanser och känslouttryck. Detta kräver mer än textbaserad sentimentanalys; det kräver en större förutsägbarhet och att man kan göra realtidsberäkningar och justeringar som svarar mot det företagserbjudande man väljer att integrera direkt i samtalet. Om utbredningen av röststödd teknik ska nå ett lika brett genomslag hos företagen som bland konsumenterna, handlar det faktiskt mer om intelligensen i samtalet än huruvida stöd för tekniken faktiskt finns. I det myller där rösterna och kontaktytorna mellan dig, dina anställda och dina kunder bara blir fler, är det viktigare än någonsin vad ni faktiskt säger till varandra.

Fakta

Befattning: Executive Director Transformations
Företag: IPsoft
Linkedin: Johan Toll
Twitter: @johantoll
E-post: johan.toll@ipsoft.com
Expertområden: Artificiell intelligens (AI), robotstyrd processautomation (RPA), automation.
Bakgrund: Mer än 30-års bakgrund i ledande roller inom it-branschen såväl i Sverige som utomlands, till exempel som CIO, CTO, it- och managementkonsult, konsultchef samt som teknikevangelist. Har arbetat med artificiell intelligens och robotstyrd processautomation i mer än tio år.