Nu har Språkbanken Sam dragit i gång på allvar

En långsiktig satsning från Vetenskapsrådet gör det äntligen möjligt att bygga en svensk basinfrastruktur för forskning inom språkteknologi. Nationella språkbankens Höstworkshop blev startskottet för jätteprojektet.

Rcikard Domeij, föreståndare för Språkbanken Sam.

På Nationella språkbankens Höstworkshop på KTH berättade Rickard Domeij om avdelningen SB Sam, som han är föreståndare för.

Nationella Språkbanken är en forskningsinfrastruktur som väver samman flera olika myndigheter och institutioner. Der är en helt ny organisation som består av tre avdelningar (se faktaruta) – och där Språkbanken Sam (SB Sam) ligger under Institutet för språk och folkminnen (Isof).

– Att främja språkteknologisk utveckling är en nationell angelägenhet som Isof ansvarar för. Att ha en infrastruktur på nationell nivå är mycket betydelsefullt ur ett språkpolitiskt perspektiv, säger Språkrådets Rickard Domeij, som är föreståndare för SB Sam.

Han berättar att engelska, tyska och andra stora språk är bäst försedda med språkteknologiska verktyg. Svenskan är i en mellanposition. Vissa andra språk saknar helt dessa resurser och anses vara hotade.

– Det är viktigt att vi i Sverige har egenutvecklade verktyg, så att vi inte sitter i knät på internationella företagsjättar. Då får vi troligtvis inte de verktyg och den tillgänglighet vi behöver eller vill ha, utan istället blir det exempelvis Microsoft som bestämmer vilka språk som ska ha stavnings­kontroll. Många av våra nationella minoritetsspråk inte kommersiellt intressanta för dessa storföretag, säger Rickard Domeij.

Men nu ska alltså en svensk basteknologi och tillhörande metoder utvecklas av Nationella språkbanken.

– Vad gäller metoder kan vi på Isof inte mäta oss med SB Tal och SB Text, metodarbete har de hållit på med länge. Men tillsammans kan vi göra mer avancerade saker än vad vi kunnat hittills. Isofs styrka är att vara dataägare och datainsamlare. Vi sitter på stora resurser vad gäller text- och tal.

Över 20 000 timmar inspelat tal

Isof har samlat in material i omkring hundra år. Exempelvis har institutet nu drygt 22 000 timmar digitaliserat inspelat tal och genom myndighetens pågående digitaliseringsarbete blir den siffran hela tiden högre.

Två olika materialtyper är intressanta för SB Sam. Den ena är folkliga berättelser och annat material i text och tal i Isofs dialekt- och folkminnessamlingar. Det kan vara inspelningar, transkriptioner, brev, uppteckningar och dialektordlistor. Materialet är både innehållsligt och språkligt intressant, med stor geografisk, social och stilistisk variation. Den andra typen är myndighets- och samhällstexter, ord och termer som samlas in kontinuerligt. Texterna är på svenska eller översättningar till teckenspråk, till lättläst text, till minoritets- och invandrarspråk.

– Den nya infrastrukturen är avgörande för Isofs verksamhetsutveckling. Vi vill digitalisera, samla in, hantera, förädla och processa material på smarta sätt. Det finns mycket stora möjligheter att tillsammans med SB Text och SB Tal skapa bra verktyg för just detta, säger Rickard Domeij.

Google har öppnat människors ögon för nyttan med verktyg som gör stora textmassor sökbara.

– Det är samma sak med vårt material, filerna kan inte bara ligga där utan behöver bli mer tillgängliga och utforskningsbara. På sikt ska man kunna söka i talfiler, kanske kan man söka i transkriptioner som är automatiskt gjorda genom taligenkänning, och på så sätt hitta det man söker i ljudfilen.

Att kunna söka i talfiler på det sättet ligger längre fram i tiden, men arbetet för att nå dit har redan startat. Projektet Tilltal pågår till exempel för fullt. Där undersöker man hur talteknologiska metoder kan göra historiska talinspelningar mer tillgängliga för forskare i samarbete med Språkbanken Tal. Man kommer också att utveckla Isofs egna forskargränssnitt Digitalt kulturarv Länk till annan webbplats. för att göra digitalt arkivmaterial mer tillgängligt för forskning.

– Digitalt kulturarv är just nu en kartbaserad forskningsprototyp och tanken är att vi där ska sätta samman allt som hör ihop med en inspelning: transkriptioner, beskrivningar i ämneskataloger, inspelningsrapporter, uppteckningar och frågelistor, och dessutom koppla allt detta geografiskt. Där ska forskare själva kunna bidra, kanske genom att göra en transkription eller rätta en automatiskt gjord sådan. Man kan kalla det för ett mer avancerat e-arkiv, säger Rickard Domeij.

Myndighetstexter ska samlas in

Även insamling av myndighetstexter har påbörjats, och här hoppas man kunna utveckla metoderna så att hela datainsamlingskedjan ska vara digital. Helst ska inhämtningen förbättras så att man automatiskt kan "skörda" myndighetstexter.

– När man sedan kopplar samman alla dessa texter ska man kunna jämföra den svenska versionen med översättningarna. Hur funkar översättningarna? Är de begripliga? Det är intressant även för teknikutvecklingen. Man kan ta fram verktyg som kopplar det krångliga till det klarspråkiga eller lättlästa, som kan mäta ”krångelnivån”, eller som kanske automatiskt kan skriva om myndighetsspråk till mer lättläst text. I och med det blir informationen tillgänglig för fler, som därmed blir mer delaktiga i samhället.

Utmaningarna framöver är att bygga upp rätt spetskompetens inom språkteknologi och digital humaniora, att integrera infrastrukturen med övriga parter, att få igång samarbeten med andra forskare och få ut information så att de använder infrastrukturen.

– Man behöver ta fram bland annat språkmodeller, lexikon och statistik, men det är i samarbete med användare som man kan bygga riktigt bra och användbara system – i och med materialet används blir det bättre och bättre. Språkvetare brukar känna till åtminstone SB Texts verktyg Korp, men historiker och andra samhällsvetare är inte lika medvetna om vilka möjligheter som finns. Det blir en utmaning att nå dem och att skapa samarbetsprojekt.

Även om forskning är det främsta syftet kommer infrastrukturen att kunna användas brett, och tack vare att såväl metoder som data i möjligaste mån är tänkta att delas och vara öppna är möjligheterna till olika framtida tillämpningar och användningsområden väldigt stora.

Läs mer om Nationella språkbanken

Webbplats: Språkbanken.se Länk till annan webbplats.