Wikipedia:Projekt Fredrika/Dialektordbok

En projektsida om att förbättra lexikografisk data i Wikidata med hjälp av innehåll från Ordbok över Finlands svenska folkmål, även kallad "dialektordboken" vars nätversion finns tillgänglig vid kaino.kotus.fi/fo. Förkortningen "FO" står för "folkmålsordboken".

Se sökning över lexem med identifierare Ordbok över Finlands svenska folkmål ID (P12032). Och en sökning med ordbokens uttal konverterade till IPA.

Projektets resultat delades med och diskuterades i svenska Wikipedias bybrunn 4 december 2023, se här.

Institutet för de inhemska språken delade med i mars 2024 en ingående sida om arbetet: Dialekt och digitalisering: överföring av material ur Ordbok över Finlands svenska folkmål till Wikidata.

Utgångsläget

Dialektordboken

Verket som inofficiellt beskrivs som en dokumentationsordbok innehåller för tillfället 78 500 artiklar (uppslagsord ab-ry) och kommer som färdig att innehålla 120 000. Finns att ladda ner som XML-filer från sidan Sähköiset aineistot kootusti (kotus.fi).

Existerande lexem i Wikidata

Det finns 41 387 svenska lexem (14.9.2023): se allmän lexem-statistik, Ordia, eller sökning över svenska lexem. Ett lexem är en abstrakt enhet varav lemma är en del - lemma är grundformen (uppslagsformen) av ordet i en ordbok.

Åtgärder

Planerade och förverkligade åtgärder i Wikidata. Vi har delat in arbetet i

redan existerande lexem / nyskapade lexem i Wikidata
simplex / compound ord (enkla eller sammansatta ord)
uttal

1. Matcha FO-ordbokens ord med existerande Wikidata-lexem

Vi lägger till P-koden Ordbok över Finlands svenska folkmål ID (P12032) i Wikidata med en pekare med uppslagsordet vid kaino.kotus.fi/fo.

Av 79 048 uppslagsord matchades 6877 (8,7%) uppslagsord till redan existerande 5594 svenska Wikidata lexem. Av de matchade 6877 FO-uppslagsord var 1 623 compound (24%), dvs FO-ordet innehåller bindesstreck, och 5 254 simplex (76%)

Skillnaden mellan 6877 och 5594 beror på att FOs varianter av homografiska uppslagsord räknas som skilda enheter, medan Wikidatas lexem samlar ihop flera betydelser under samma lemma (grundformen) och ordklass (substantiv, verb, adverb, etc). Exempel på Wikidata lexem med mera än motsvarighet i FO: and L251549, anda L477545, ankare L590490.

2. Skapa nya lexem

Vi har även ämnat skapa nya lexem i ett senare skede.

3. Föra in uttal

Vi har skapat en konverteringstabell mellan ordbokens "fin-beteckning" och IPA, så att vi kan föra in uttalens ljudprov med egenskapen IPA-uttal (P898) under varje lexem, samt uttrycka regionerna för uttalet med uttalsvariation (P5237).

Vi har 4. december 2023 slutfört införande av 13 247 uttal för redan existerande simplex uppslagsord (cirka 5254 från a till r), för redan existerande lexem. Mängden data är totalt 59 632 rader tillsammans med regionerna för uttalen. Se sökning på svenska lexem med FO-id, uttal och region.

Vi har 18. december fört in uttal för existerande sammansatta compound ord, motsvarande 3341 rader med data för uttal och regioner. Se sökning.

Kvar är därmed att föra in uttal för nyskapade lexem då det görs.

Python kod

Koden vi skrivit för projektet finns på github vid projekt-fredrika/kotus-fo - den parsar XML-filerna, filtrerar bort uttal som inte är i grundform, matchar ord till Wikidata med hjälp av Wikidatas API (wikidata.org/w/api.php), konverterar uttal till IPA, och förbereder uppladdningar till Wikidata med QuickStatements och LexData. Vi använde även wikibase-cli för att städa några tusen qualifiers inom lexem.

Egenskaper för lexem

Se dokumentation över typiska egenskaper att föra in - en del viktigare än andra

Grunduppgifter (grundkriterier)

Lemma, t.ex. kölva (för betydelse se FO om kölva, och motsvarande Wikidata-lexem: L1149927)
Språk svenska (Q9027)
Lexikal kategori: substantiv (Q1084), verb (Q24905), adjektiv (Q34698), etc

Uttalande

grammatiskt kön (P5185): för substantiv en: utrum (Q1305037), ett: neutrum (Q1775461)
böjningsklass (P5911): -or, ar, -er, -r, -n, se Deklination (lingvistik): 1:a deklinationen i svenska (Q106602496), 2:a deklinationen i svenska (Q106602498), 3:e deklinationen i svenska (Q106602499), 4:e deklinationen i svenska (Q106602501), 5:e deklinationen i svenska (Q106602503)
sammansatt av (P5238) för "compounds" (sammansatta ord)
språkprov (P5831) (exempelfras)

Identifierare

Ordbok över Finlands svenska folkmål ID (P12032) med ID, t.ex. dc604962fe96cb16d12889d30a36527a

Betydelser (kan ha flera)

gloss, på svenska eller andra språk - dvs beskrivning
kan även ha översättning, synonym, mm och länk till wikidata/wikipedia med objekt för denna betydelse (P5137)

Form (böjningar)

per form: IPA-uttal (P898), uttal (ljudfil) (P443) som kan möjligen definieras per region

Spörsmål

Transkription av uttal

Hur konvertera till IPA?

Wikidata använder Internationella fonetiska alfabetet
ordens uttal beskrivs i FO med två olika metoder, båda bundna till svenskan
1. fint uttal
2. grovt uttal
det är oklart om det är trivialt att ur FO-uttalsbeskrivningen går att härleda vilkendera formen det rör sig om
- utrett: uttalen är definierade i XML som fin eller grov.

Hur ange det som är viktigt för östsvenskt uttal?

vokalernas längd är oberoende av betoningen
- viktigt med vilken stavelse som betonas, liksom i västsvenska
- ord kan ha enbart korta vokaler, i motsats till västsvenska
- finlir och nyanser i betoningen saknas, törhända med undantag av västnyländska
viktigt att tje- och sje-ljuden uttalas annorlunda än i västsvenska dialekter
- det som skrivs "tjölvå" är väl snarare [tʂœlːvɔ] än [ɕœlːvɔ]?
annorlunda (kanske?) vokaler
- hur översätter man FO:s ɷ ⱺ o ö ø å till IPA?
- i Wikidata-artikeln om IPA görs skillnad på ö-ljudet i "förr" och "högg", varför?

Hur ange regional variation?

Wikidata understryker behovet att ange uttal för samtliga böjningsformer (kölva, kölvan, kölvorna, kölvornas etc.)
Ur FO-synvinkel är det däremot den regionala variationen som är intressant (tjöḷvɷ, tjøḷvɷ, tjöḷvⱺ, køḷvo, tjälvå)
- har nu frågat hur ange region för IPA: Property_talk:P898#How_to_mark_dialect_region?

Redskap och annat

Skapa, redigera lexem

LexData, pythonkod som möjliggör att skapa lexem i större mängder (men inte lägga till egenskaper)
QuickStatements, batch-verktyg i browser som nuförtiden har stöd för att redigera lexem (men inte skapa)
Skapa lexem med form: lexeme-forms.toolforge.org, sv substantiv: utrum, en (masskapa); neutrum, ett (masskapa)

Behandla data

GetWordinSAOB.py, exempel på pythonkod på github för att hämta ord och IDn från SAOB

Wikidata sökninar (queryn)

lexem med Ordbok över Finlands svenska folkmål ID (P12032), se sökning (kan ha flera IDn per lexem)
- lexem med P12032, unika lexem, med antal former and betydelser per lexem, se sökning (utan dubletter pga ID, dvs unika lexem)
- lexem med sammansatt av (P5238): fisk (8), båt (4), is (14), hav (3), se sökning
exempel: Wikidata:Lexicographical_data/Ideas_of_queries
svenska lexem med form(er) som har IPA-uttal (P898), se sökning
lexem med form(er) som ha IPA-uttal (P898) med verkets eller namnets språk (P407), se sökning
- sökning: lexem med ordbokens ID med IPA-uttal
- sökning: lexem med ordbokens ID med IPA-uttal för en region, Nagu i detta exempel
wikidata objekt med IPA-uttal (P898) med antal språk P407 per IPA, se sökning
svenska lexem med form(er) som har uttal (ljudfil) (P443), se sökning
alla formers IPA för ett lexem, se sökning