Språkteknologi

Språkteknologi, datorlingvistik eller datalingvistik, ibland även NLP (engelska: natural language processing), är ett tvärvetenskapligt forskningsområde som omfattar utveckling av datorprogram för att analysera, förstå eller generera mänskligt språk, och även modellering och simulering av mänskligt språkligt beteende med hjälp av datorer. Målet med språkteknologi är att förenkla och förbättra kommunikationen mellan människor och mellan människor och datorer. I detta ingår också alla hjälpmedel som ett datorsystem erbjuder en skribent för att uttrycka sig bättre i tal eller skrift, liksom en del verktyg som hjälper människor att prata med eller skriva till varandra via en dator. Språkteknologi utgörs av både tekniker och språkresurser (olika slags data- och textsamlingar, t.ex. korpora eller korpusar; enspråkiga eller flerspråkiga lexikon, ordböcker, termbanker, taldatabaser osv). Teknikerna tar form som programvara, medan resurserna är den information som programvaran utnyttjar. Språkteknologi bygger på kunskaper inom lingvistik, fonetik, datavetenskap, statistik, artificiell intelligens och kognitiv psykologi. På senare år har ämnet influerats starkt av statistiska metoder och maskininlärning. Intresset för multimodal kommunikation där gester, icke-språkliga symboler och bilder finns tillsammans med text eller tal eller kompletterar den språkliga signalen har också ökat.

Den grundläggande processen i språkteknikutveckling omfattar:

att föra in material i datorn, med hjälp av tal eller text, eller manuellt vid ett tangentbord;
att tolka det införda materialet, uppdela det i exempelvis enskilda ord, eller koda materialet i symbolisk form;
att förstå materialet, anpassat till behovet i den enskilda tillämpningen;
att bruka denna förståelse till att t.ex. överföra tal till text, rättstava och avstava, översätta, eller leta efter information;
att presentera resultatet på en bildskärm, i en högtalare eller på papper.

Denna processmodell finns i olika varianter, där inte nödvändigtvis alla delar ingår.

Viktiga teknik- och tillämpningsområden inom språkteknologi

informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register, på Internet eller på stora textdatabaser. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras. Informationssökning innebär att information i datorlagrad form söks ut med hjälp av olika tekniker, verktyg (sökmotorer) och teknologier (söktjänster). Söktjänsterna använder sökmotorer, även kallade sökrobotar, för att upptäcka, hämta in och indexera webbsidor och gör det möjligt att söka efter innehåll på Internet;
textanalys handlar om hur datorn kan tolka texter, förstå vilka grammatiska och kontextuella funktioner olika ord fyller och representera en texts innebörd på ett internt format. Hit hör teknologier som informationsextraktion eller informationsutvinning, textsammanfattning och textgenerering:
- informationsextraktion som innebär att ur en text plocka ut och strukturera de viktigaste innehållselementen enligt på förhand givna regler så att innehållet kan läggas i en databas eller i formulär
- informationsutvinning som innebär att från stora mängder text och andra data aggregera återkommande mönster och samband
- textsammanfattning som innebär att från en eller flera texter formulera en läsbar text som är en sammanfattning av innehållet
- textgenerering, ibland även NLG (engelska: natural language generation) dvs hur datorn skapar en text från en beskrivning av vad som ska uttryckas. I talspråkssammanhang talar man om istället för talsyntes, att automatiskt från något innehåll generera tal t.ex. en fråga till en användare. I textanalys hör till också delteknologier som t.ex.:
- åsikts-, värderings- eller attitydanalys
- genreklassificering
- läsbarhetsmått och
- författaridentifiering;
talteknologi handlar om att datorn läser upp en text eller förstår talat språk för t.ex. diktering eller för att lyssna på kommandon eller för att kunna tolka talat mänskligt språk till text eller annan användbar information, till exempel i talsvarssystem eller telefontaltjänster;
dialogsystem innefattar datorprogram som gör att man föra en mer eller mindre naturlig dialog med en dator, på svenska, engelska eller annat naturligt språk;
automatisk översättning mellan två eller flera språk omfattar översättning av texter från ett språk till ett annat, antingen som verktyg som hjälper mänskliga översättare eller som program vilka syftar till att åstadkomma en automatisk översättning. Vanligen ger ett sådant program en första grovöversättning som sedan kan förfinas;
frågesvarsystem, att kunna ur en databas hämta information som ges som svar på en fråga ställd i mänskligt språk;
skrivstöd, såsom grammatikkontroll och rättstavningshjälp i ordbehandlingsprogram;
ämneklassificering och indexering, innebär att klassificera vilka ämnesområden en text handlar om eller tilldela nyckelord till texten;
programvaruutveckling, spårbarhetsverktyg mellan mjukvaruartefakter som krav- och testdokumentation, källkod och defektrapporter, duplikatanalys av defekter;
teckenigenkänning eller maskinläsning av text ur en bild eller ett inskannat dokument;
språkinlärning omfattar intelligenta program eller datorstöd till lärande som kan t.ex. användas av svenskspråkiga personer att förbättra sin svenska, eller som syftar till att lära ut främmande språk.

Dessa områden överlappar delvis – många av dem använder liknande tekniker och komponenter.

Externa länkar

SLTC: Svenska konferenser inom språkteknologi (Linköping 2010; Lund 2012; Uppsala 2014)