• Huvudmeny

Nu har Språkbanken Sam dragit i gång på allvar

En långsiktig satsning från Vetenskapsrådet gör det äntligen möjligt att bygga en svensk basinfrastruktur för forskning inom språkteknologi. Nationella språkbankens Höstworkshop blev startskottet för jätteprojektet.

Bild på Rickard Domeij framför en projektorduk.

På Nationella språkbankens Höstworkshop på KTH berättade Rickard Domeij om avdelningen SB Sam, som han är föreståndare för.

Nationella Språkbanken är en forskningsinfrastruktur som väver samman flera olika myndigheter och institutioner. Der är en helt ny organisation som består av tre avdelningar (se faktaruta) – och där Språkbanken Sam (SB Sam) ligger under Institutet för språk och folkminnen (Isof).

– Att främja språkteknologisk utveckling är en nationell angelägenhet som Isof ansvarar för. Att ha en infrastruktur på nationell nivå är mycket betydelsefullt ur ett språkpolitiskt perspektiv, säger Språkrådets Rickard Domeij, som är föreståndare för SB Sam.

Han berättar att engelska, tyska och andra stora språk är bäst försedda med språkteknologiska verktyg. Svenskan är i en mellanposition. Vissa andra språk saknar helt dessa resurser och anses vara hotade.

– Det är viktigt att vi i Sverige har egenutvecklade verktyg, så att vi inte sitter i knät på internationella företagsjättar. Då får vi troligtvis inte de verktyg och den tillgänglighet vi behöver eller vill ha, utan istället blir det exempelvis Microsoft som bestämmer vilka språk som ska ha stavnings­kontroll. Många av våra nationella minoritetsspråk inte kommersiellt intressanta för dessa storföretag, säger Rickard Domeij.

Men nu ska alltså en svensk basteknologi och tillhörande metoder utvecklas av Nationella språkbanken.

– Vad gäller metoder kan vi på Isof inte mäta oss med SB Tal och SB Text, metodarbete har de hållit på med länge. Men tillsammans kan vi göra mer avancerade saker än vad vi kunnat hittills. Isofs styrka är att vara dataägare och datainsamlare. Vi sitter på stora resurser vad gäller text- och tal.

Över 20 000 timmar inspelat tal

Isof har samlat in material i omkring hundra år. Exempelvis har institutet nu drygt 22 000 timmar digitaliserat inspelat tal och genom myndighetens pågående digitaliseringsarbete blir den siffran hela tiden högre.

Två olika materialtyper är intressanta för SB Sam. Den ena är folkliga berättelser och annat material i text och tal i Isofs dialekt- och folkminnessamlingar. Det kan vara inspelningar, transkriptioner, brev, uppteckningar och dialektordlistor. Materialet är både innehållsligt och språkligt intressant, med stor geografisk, social och stilistisk variation. Den andra typen är myndighets- och samhällstexter, ord och termer som samlas in kontinuerligt. Texterna är på svenska eller översättningar till teckenspråk, till lättläst text, till minoritets- och invandrarspråk.

Grafik över Nationella språkbankens struktur.

Så här är Nationella språkbanken uppbyggd. SB Sam bidrar bland annat med text- och taldata.

– Den nya infrastrukturen är avgörande för Isofs verksamhetsutveckling. Vi vill digitalisera, samla in, hantera, förädla och processa material på smarta sätt. Det finns mycket stora möjligheter att tillsammans med SB Text och SB Tal skapa bra verktyg för just detta, säger Rickard Domeij.

Google har öppnat människors ögon för nyttan med verktyg som gör stora textmassor sökbara.

– Det är samma sak med vårt material, filerna kan inte bara ligga där utan behöver bli mer tillgängliga och utforskningsbara. På sikt ska man kunna söka i talfiler, kanske kan man söka i transkriptioner som är automatiskt gjorda genom taligenkänning, och på så sätt hitta det man söker i ljudfilen.

Att kunna söka i talfiler på det sättet ligger längre fram i tiden, men arbetet för att nå dit har redan startat. Projektet Tilltal pågår till exempel för fullt. Där undersöker man hur talteknologiska metoder kan göra historiska talinspelningar mer tillgängliga för forskare i samarbete med Språkbanken Tal. Man kommer också att utveckla Isofs egna forskargränssnitt Digitalt kulturarvlänk till annan webbplats, öppnas i nytt fönster för att göra digitalt arkivmaterial mer tillgängligt för forskning.

– Digitalt kulturarv är just nu en kartbaserad forskningsprototyp och tanken är att vi där ska sätta samman allt som hör ihop med en inspelning: transkriptioner, beskrivningar i ämneskataloger, inspelningsrapporter, uppteckningar och frågelistor, och dessutom koppla allt detta geografiskt. Där ska forskare själva kunna bidra, kanske genom att göra en transkription eller rätta en automatiskt gjord sådan. Man kan kalla det för ett mer avancerat e-arkiv, säger Rickard Domeij.

Grafik över semantiskt kluster.

I Digitalt kulturarv kan man till exempel göra nätverksanalyser som skapar semantiska kluster, där varje ord i klustret blir klickbart.

Myndighetstexter ska samlas in

Även insamling av myndighetstexter har påbörjats, och här hoppas man kunna utveckla metoderna så att hela datainsamlingskedjan ska vara digital. Helst ska inhämtningen förbättras så att man automatiskt kan "skörda" myndighetstexter.

– När man sedan kopplar samman alla dessa texter ska man kunna jämföra den svenska versionen med översättningarna. Hur funkar översättningarna? Är de begripliga? Det är intressant även för teknikutvecklingen. Man kan ta fram verktyg som kopplar det krångliga till det klarspråkiga eller lättlästa, som kan mäta ”krångelnivån”, eller som kanske automatiskt kan skriva om myndighetsspråk till mer lättläst text. I och med det blir informationen tillgänglig för fler, som därmed blir mer delaktiga i samhället.

Utmaningarna framöver är att bygga upp rätt spetskompetens inom språkteknologi och digital humaniora, att integrera infrastrukturen med övriga parter, att få igång samarbeten med andra forskare och få ut information så att de använder infrastrukturen.

– Man behöver ta fram bland annat språkmodeller, lexikon och statistik, men det är i samarbete med användare som man kan bygga riktigt bra och användbara system – i och med materialet används blir det bättre och bättre. Språkvetare brukar känna till åtminstone SB Texts verktyg Korp, men historiker och andra samhällsvetare är inte lika medvetna om vilka möjligheter som finns. Det blir en utmaning att nå dem och att skapa samarbetsprojekt.

Även om forskning är det främsta syftet kommer infrastrukturen att kunna användas brett, och tack vare att såväl metoder som data i möjligaste mån är tänkta att delas och vara öppna är möjligheterna till olika framtida tillämpningar och användningsområden väldigt stora.

Kort om Språkbanken Text

SB Text ska jobba med att komma åt dels innehållsliga delar i text, dels kunna säga något om en text i sin helhet. Det första kan handla om att kunna analysera och märka upp texten, då måste man kunna hantera böjningar av ord, ha fungerande namnigenkänning, bestämma hur många betydelser ett ord har och kunna hanterar textens semantiska delar som ger svar på frågor som vem, vad, hur och på vilket sätt. Textens innehåll som helhet handlar om textklassificering och gruppering.

I Språkbankens korpusverktyg Korp finns stora mängder fritt sökbar historisk text, bland annat digitaliserade dagstidningar från Kungliga biblioteket (KB). Att material finns överfört till maskinläsbar text är en grundförutsättning för så kallad datadriven forskning inom humaniora och samhällsvetenskap.

Kort om Språkbanken Tal

Tal är den mest förekommande formen av språk och det finns idag nästan hur mycket taldata som helst, men en flaskhals är uppmärkning av den, något som är dyrt, viktigt och svårt. Området är ungt, med få standarder och det är ovanligt med vedertagna metoder. I nuläget saknas en högkvalitativ, kostnadsfri, svenskägd lösning för tal-till-text och text-till-tal.

SB Tal kommer att ta emot, märka upp och dela data, utveckla och dela analysmetoder och basteknologi samt utvärdera processerna. Många arbeten underlättas av att man kan tala in text istället för att knappa in den. På sikt handlar SB Tals arbete om tillgänglighet, arbetsmiljö, forskning, röststyrning, dialogsystem, m.m.. SB Tal samarbetar med bland annat Karolinska Institutet, Wikimedia och direkttolkar, men letar fler industrisamarbeten och användare till infrastrukturen.

Uppdaterad 29 november 2018

Detta är Nationella språkbanken

Nationella Språkbanken ska främst stödja språkteknologi och svensk språkvetenskap samt annan forskning baserad på språkliga data. Det kan exempelvis vara humaniora, samhällsvetenskap, kognitionsvetenskap, psykologi, forskning om interaktion och kommunikation, artificiell intelligens, utbildningsvetenskap och medicin.

Organisationen är formerad i tre avdelningar, där de tre huvudparterna ansvarar för varsin del: SB Text (Göteborgs universitet), SB Tal (Kungliga tekniska högskolan, KTH) och SB Sam (Institutet för språk och folkminnen, Isof). Även nätverket Swe-Clarin med ytterligare sju universitet och myndigheter medverkar.

Vetenskapsrådet bidrar med 210 miljoner kronor under sju år.

Nationella språkbankens två övergripande ansvarsområden är:

  • Samarbete med, och stöd åt, forskare.
  • Utveckling och underhåll av e-infrastrukturen, styrning, administration och kommunikation.

SB Sams och Isofs mål är:

  • Att utveckla verktyg och metoder för digital insamling, exempelvis webbfrågelistor, crowdsourcing och webcrawling.
  • Att utveckla lexikoninfrastruktur för att lagra, redigera, integrera och tillgängliggöra dialekt- och samhällsord.
  • Att med språkteknologiska verktyg märka upp, bearbeta, utforska och för forskning tillgängliggöra text- och talmaterial i arkiven.
  • Att utveckla system och metoder för att hantera och tillgängliggöra digitalt arkivmaterial i kontext med hjälp av gränssnittet Digitalt kulturarv och SB Texts verktyg Korp och Strix.

Ur Nationella språkbankens strategiska plan

Språkteknologi är ett samlingsnamn för sådan informations- och kommunikationsteknologi som låter datorer hantera mänskligt språk i alla dess former – tal, skrift och teckenspråk.

Språkteknologi är ett starkt tvärvetenskapligt forskningsområde som är relevant överallt där människor interagerar med datorer och faktiskt även vid interaktion människor emellan, i form av olika sorters kommunikations-hjälpmedel.

Läs mer från Inblicken