Taligenkänning inom språkbranschen

Under de senaste åren har utvecklingen inom taligenkänning, även känt som tal-till-text eller ASR (Automatic Speech Recognition), gjort stora framsteg. Tekniken bygger på att omvandla tal till text genom att analysera inspelningen och bryta ner talet i fonem, dvs. betydelseskiljande språkljud. Fonemen sammanförs sedan till ord genom en modell där fonemens följd tolkas med sannolikheten som en faktor – dvs. sannolikheten att fonemet /D/ följs av fonemet /O/ är större än /H/ osv.

Modellerna tränas på stora mängder data; exempelvis ljud- och videofiler med tillhörande transkribering, även kallat ”Ground Truth”, vilket kan ses som ett facit. Ju mer data en modell tränas på desto bättre blir den på att tolka ett specifik språk, dialekt eller ord.

De marknadsledande taligenkänningsmodellerna såsom Googles Speech-To-Text, Microsofts Azure och Open AIs Whisper är alla tränade på mestadels engelsk data. Det har resulterat i att modellerna presterar betydligt sämre på mindre europeiska språk, exempelvis svenska. Som en reaktion mot detta kraftsamlar nu EU för att förbättra kvalitén på den europeiska talteknologin.
Ett exempel är initiativet LDS (Europena Language Data Center) som samlar stora mängder data som kan användas till att träna nya europeiska språkmodeller. Även i Sverige pågår ett aktivt arbete med att utveckla den svenska talteknologin.
Exempelvis genom AI-Sweden och KB-labb som tränar fritt tillgängliga svenska språkmodeller – bland annat på Kungliga Bibliotekets omfattande arkivmaterial.

Hur presterar dagens taligenkänningsmodeller?

Det finns flera aspekter som påverkar taligenkänningen förmåga att tolka tal till text. Om modellen saknar träningsdata på det specifika språket kan modellen aldrig uppnå ett bra resultat. Det gäller även modellernas förmåga att tolka olika dialekter inom ett språk. Om en språkmodell tränats på rikssvenska kommer den ha svårare att tolka en grövre dialekt som skånska. Ljudkvalitén på talet som ska analyseras påverkar även resultatet. En inspelning från en dålig mikrofon, exempelvis en webbkamera i ett Zoom-möte, kan aldrig ge samma resultat som en inspelning med en högkvalitativ mikrofon. Mumlande tal, ofullständiga meningar och personer som pratar i mun på varandra är också faktorer som påverkar resultatet negativt. Manusbundet tal med bra ljudkvalité ger således bäst resultat!

Men oavsett om förutsättningarna är goda kommer taligenkänningsmodeller begå misstag. Ord misstolkas och interpunktionen blir fel. Vissa modeller har även problem med så kallade ”hallucinationer” där främmande språk och ord som aldrig uttalats skrivs ut. Taligenkänning ger även en ordagrann återgivning av det som sägs. Och talspråk i skrift blir i många fall svårt att läsa. En manuell redigering är därför en absolut nödvändighet för att uppnå ett läsbart och korrekt resultat.

Hur kan taligenkänning användas vid produktion av undertext?

Genom att kombinera taligenkänning med en modell utvecklad för att segmentera text och generera tidstämplar från dialogen kan man skapa automatiska undertexter. Det är en tjänst som flera videoplattformar, videomötestjänster och textningsprogram erbjuder. Men kvalitén varierar nämnvärt och i de flesta fall saknas ett lättanvänt redigeringsverktyg där användaren kan granska och korrigera sin automatiska undertexter innan de publiceras.

Under hösten 2023 påbörjade Svensk Medietext ett utvecklingsprojekt för att ta fram en plattform för automatisk undertextning på svenska. Vår ambitionen är att kombinera vår kunskap om textning och tillgänglighet med det senaste inom språkteknologin för att skapa ett verktyg som alla kan använda för att producera professionella och läsbara undertexter, helt utan förkunskap.

Kontakta oss på kundservice@medietext.se om du vill veta mer om projektet.

Jakob Erlandsson, 2024-01-15

tillbaka till alla inlägg

Dela inlägget

Kaka	Varaktighet	Beskrivning
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category.
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Kaka	Varaktighet	Beskrivning
_fbp	3 months	Facebook sets this cookie to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising after visiting the website.
_ga	1 year 1 month 4 days	Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_gat_gtag_UA_*	1 minute	Google Analytics sets this cookie to store a unique user ID.
_gid	1 day	Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously.

Taligenkänning inom språkbranschen

Senaste