Kungliga biblioteket lanserar ny AI-modell baserad på dialektinspelningar från Isof
Idag lanserar Kungliga biblioteket KB-Whisper, en AI-modell som transkriberar tal till text. KB-Whisper har bland annat tränats på Isofs dialektinspelningar.
KB-Whisper är en tal-till-textmodell som har tränats på 50 000 timmar tal för att lära sig omvandla talat språk till text. Talmaterialet kommer från KB:s audiovisuella samlingar, Riksdagsförvaltningen, Sveriges Television samt Isof. Isof har bidragit med inspelade dialekter från hela Sverige, framförallt från 1935–1970, men även äldre inspelningar som digitaliserats av Språkbanken Sam.
AI-modellen utgår ifrån det amerikanska företaget Open AI:s modell Whisper, men KB:s modell är den första med gedigen träning på svenska och gör 47 procent färre fel på ordnivå än den amerikanska förlagan.
– Modellen är särskilt bra på att stava rätt på svåra svenska orts- och personnamn och komplicerade termer, säger Leonora Vesterbacka, senior data scientist på KB.
Den nya AI-modellen har många olika användningsområden. Sveriges television har planer på att använda KB-Whisper för att texta sina sändningar. Tal-till-textmodeller ligger även till grund för telefonbaserad kundtjänst och med särskild träning på medicinska termer kan modellen transkribera läkares diktafoninspelningar till journalanteckningar.