Under de senaste åren har utvecklingen inom taligenkänning, även känt som tal-till-text eller ASR (Automatic Speech Recognition), gjort stora framsteg. Tekniken bygger på att omvandla tal till text genom att analysera inspelningen och bryta ner talet i fonem, dvs. betydelse­skiljande språk­ljud. Fonemen sammanförs sedan till ord genom en modell där fonemens följd tolkas med sannolikheten som en faktor – dvs. sannolikheten att fonemet /D/ följs av fonemet /O/ är större än /H/ osv.

Modellerna tränas på stora mängder data; exempelvis ljud- och videofiler med tillhörande transkribering, även kallat ”Ground Truth”, vilket kan ses som ett facit. Ju mer data en modell tränas på desto bättre blir den på att tolka ett specifik språk, dialekt eller ord.

De marknadsledande taligenkänningsmodellerna såsom Googles Speech-To-Text, Microsofts Azure och Open AIs Whisper är alla tränade på mestadels engelsk data. Det har resulterat i att modellerna presterar betydligt sämre på mindre europeiska språk, exempelvis svenska. Som en reaktion mot detta kraftsamlar nu EU för att förbättra kvalitén på den europeiska talteknologin.
Ett exempel är initiativet LDS (Europena Language Data Center) som samlar stora mängder data som kan användas till att träna nya europeiska språkmodeller. Även i Sverige pågår ett aktivt arbete med att utveckla den svenska talteknologin.
Exempelvis genom AI-Sweden och KB-labb som tränar fritt tillgängliga svenska språkmodeller – bland annat på Kungliga Bibliotekets omfattande arkivmaterial.

Hur presterar dagens taligenkänningsmodeller?

Det finns flera aspekter som påverkar taligenkänningen förmåga att tolka tal till text. Om modellen saknar träningsdata på det specifika språket kan modellen aldrig uppnå ett bra resultat. Det gäller även modellernas förmåga att tolka olika dialekter inom ett språk. Om en språkmodell tränats på rikssvenska kommer den ha svårare att tolka en grövre dialekt som skånska. Ljudkvalitén på talet som ska analyseras påverkar även resultatet. En inspelning från en dålig mikrofon, exempelvis en webbkamera i ett Zoom-möte, kan aldrig ge samma resultat som en inspelning med en högkvalitativ mikrofon. Mumlande tal, ofullständiga meningar och personer som pratar i mun på varandra är också faktorer som påverkar resultatet negativt. Manusbundet tal med bra ljudkvalité ger således bäst resultat!

Men oavsett om förutsättningarna är goda kommer taligenkänningsmodeller begå misstag. Ord misstolkas och interpunktionen blir fel. Vissa modeller har även problem med så kallade ”hallucinationer” där främmande språk och ord som aldrig uttalats skrivs ut. Taligenkänning ger även en ordagrann återgivning av det som sägs. Och talspråk i skrift blir i många fall svårt att läsa. En manuell redigering är därför en absolut nödvändighet för att uppnå ett läsbart och korrekt resultat.

Hur kan taligenkänning användas vid produktion av undertext?

Genom att kombinera taligenkänning med en modell utvecklad för att segmentera text och generera tidstämplar från dialogen kan man skapa automatiska undertexter. Det är en tjänst som flera videoplattformar, videomötestjänster och textningsprogram erbjuder. Men kvalitén varierar nämnvärt och i de flesta fall saknas ett lättanvänt redigeringsverktyg där användaren kan granska och korrigera sin automatiska undertexter innan de publiceras.

Svensk Medietext bevakar ständigt utveckling inom talteknologi. Och har som mål att på sikt utveckla en egen plattform för automatiska undertexter. Vår ambitionen är att kombinera vår kunskap om textning och tillgänglighet med det senaste inom språkteknologin för att skapa ett verktyg som alla kan använda för att producera professionella och läsbara undertexter, helt utan förkunskap.

Kontakta oss på kundservice@medietext.se om du vill veta mer om projektet.

Skriven av Jakob Erlandsson, 2024-01-15

Dela inlägget