Wikipedia:Projekt Fredrika/Dialektordbok
En projektsida om att förbättra lexikografisk data i Wikidata med hjälp av innehåll från Ordbok över Finlands svenska folkmål, även kallad "dialektordboken" vars nätversion finns tillgänglig vid kaino.kotus.fi/fo. Förkortningen "FO" står för "folkmålsordboken".
Se sökning över lexem med identifierare Ordbok över Finlands svenska folkmål ID (P12032). Och en sökning med ordbokens uttal konverterade till IPA.
Projektets resultat delades med och diskuterades i svenska Wikipedias bybrunn 4 december 2023, se här.
Institutet för de inhemska språken delade med i mars 2024 en ingående sida om arbetet: Dialekt och digitalisering: överföring av material ur Ordbok över Finlands svenska folkmål till Wikidata.
Utgångsläget
[redigera | redigera wikitext]Dialektordboken
[redigera | redigera wikitext]Verket som inofficiellt beskrivs som en dokumentationsordbok innehåller för tillfället 78 500 artiklar (uppslagsord ab-ry) och kommer som färdig att innehålla 120 000. Finns att ladda ner som XML-filer från sidan Sähköiset aineistot kootusti (kotus.fi).
Existerande lexem i Wikidata
[redigera | redigera wikitext]Det finns 41 387 svenska lexem (14.9.2023): se allmän lexem-statistik, Ordia, eller sökning över svenska lexem. Ett lexem är en abstrakt enhet varav lemma är en del - lemma är grundformen (uppslagsformen) av ordet i en ordbok.
Åtgärder
[redigera | redigera wikitext]Planerade och förverkligade åtgärder i Wikidata. Vi har delat in arbetet i
- redan existerande lexem / nyskapade lexem i Wikidata
- simplex / compound ord (enkla eller sammansatta ord)
- uttal
1. Matcha FO-ordbokens ord med existerande Wikidata-lexem
Vi lägger till P-koden Ordbok över Finlands svenska folkmål ID (P12032) i Wikidata med en pekare med uppslagsordet vid kaino.kotus.fi/fo.
Av 79 048 uppslagsord matchades 6877 (8,7%) uppslagsord till redan existerande 5594 svenska Wikidata lexem. Av de matchade 6877 FO-uppslagsord var 1 623 compound (24%), dvs FO-ordet innehåller bindesstreck, och 5 254 simplex (76%)
Skillnaden mellan 6877 och 5594 beror på att FOs varianter av homografiska uppslagsord räknas som skilda enheter, medan Wikidatas lexem samlar ihop flera betydelser under samma lemma (grundformen) och ordklass (substantiv, verb, adverb, etc). Exempel på Wikidata lexem med mera än motsvarighet i FO: and L251549, anda L477545, ankare L590490.
2. Skapa nya lexem
Vi har även ämnat skapa nya lexem i ett senare skede.
3. Föra in uttal
Vi har skapat en konverteringstabell mellan ordbokens "fin-beteckning" och IPA, så att vi kan föra in uttalens ljudprov med egenskapen IPA-uttal (P898) under varje lexem, samt uttrycka regionerna för uttalet med uttalsvariation (P5237).
Vi har 4. december 2023 slutfört införande av 13 247 uttal för redan existerande simplex uppslagsord (cirka 5254 från a till r), för redan existerande lexem. Mängden data är totalt 59 632 rader tillsammans med regionerna för uttalen. Se sökning på svenska lexem med FO-id, uttal och region.
Vi har 18. december fört in uttal för existerande sammansatta compound ord, motsvarande 3341 rader med data för uttal och regioner. Se sökning.
Kvar är därmed att föra in uttal för nyskapade lexem då det görs.
Python kod
Koden vi skrivit för projektet finns på github vid projekt-fredrika/kotus-fo - den parsar XML-filerna, filtrerar bort uttal som inte är i grundform, matchar ord till Wikidata med hjälp av Wikidatas API (wikidata.org/w/api.php), konverterar uttal till IPA, och förbereder uppladdningar till Wikidata med QuickStatements och LexData. Vi använde även wikibase-cli för att städa några tusen qualifiers inom lexem.
Egenskaper för lexem
[redigera | redigera wikitext]Se dokumentation över typiska egenskaper att föra in - en del viktigare än andra
Grunduppgifter (grundkriterier)
- Lemma, t.ex. kölva (för betydelse se FO om kölva, och motsvarande Wikidata-lexem: L1149927)
- Språk svenska (Q9027)
- Lexikal kategori: substantiv (Q1084), verb (Q24905), adjektiv (Q34698), etc
Uttalande
- grammatiskt kön (P5185): för substantiv en: utrum (Q1305037), ett: neutrum (Q1775461)
- böjningsklass (P5911): -or, ar, -er, -r, -n, se Deklination (lingvistik): 1:a deklinationen i svenska (Q106602496), 2:a deklinationen i svenska (Q106602498), 3:e deklinationen i svenska (Q106602499), 4:e deklinationen i svenska (Q106602501), 5:e deklinationen i svenska (Q106602503)
- sammansatt av (P5238) för "compounds" (sammansatta ord)
- språkprov (P5831) (exempelfras)
Identifierare
Betydelser (kan ha flera)
- gloss, på svenska eller andra språk - dvs beskrivning
- kan även ha översättning, synonym, mm och länk till wikidata/wikipedia med objekt för denna betydelse (P5137)
Form (böjningar)
- per form: IPA-uttal (P898), uttal (ljudfil) (P443) som kan möjligen definieras per region
Spörsmål
[redigera | redigera wikitext]Transkription av uttal
[redigera | redigera wikitext]Hur konvertera till IPA?
- Wikidata använder Internationella fonetiska alfabetet
- ordens uttal beskrivs i FO med två olika metoder, båda bundna till svenskan
- fint uttal
- grovt uttal
- det är oklart om det är trivialt att ur FO-uttalsbeskrivningen går att härleda vilkendera formen det rör sig om
- utrett: uttalen är definierade i XML som fin eller grov.
Hur ange det som är viktigt för östsvenskt uttal?
- vokalernas längd är oberoende av betoningen
- viktigt med vilken stavelse som betonas, liksom i västsvenska
- ord kan ha enbart korta vokaler, i motsats till västsvenska
- finlir och nyanser i betoningen saknas, törhända med undantag av västnyländska
- viktigt att tje- och sje-ljuden uttalas annorlunda än i västsvenska dialekter
- det som skrivs "tjölvå" är väl snarare [tʂœlːvɔ] än [ɕœlːvɔ]?
- annorlunda (kanske?) vokaler
- hur översätter man FO:s ɷ ⱺ o ö ø å till IPA?
- i Wikidata-artikeln om IPA görs skillnad på ö-ljudet i "förr" och "högg", varför?
Hur ange regional variation?
- Wikidata understryker behovet att ange uttal för samtliga böjningsformer (kölva, kölvan, kölvorna, kölvornas etc.)
- Ur FO-synvinkel är det däremot den regionala variationen som är intressant (tjöḷvɷ, tjøḷvɷ, tjöḷvⱺ, køḷvo, tjälvå)
- har nu frågat hur ange region för IPA: Property_talk:P898#How_to_mark_dialect_region?
Redskap och annat
[redigera | redigera wikitext]Skapa, redigera lexem
- LexData, pythonkod som möjliggör att skapa lexem i större mängder (men inte lägga till egenskaper)
- QuickStatements, batch-verktyg i browser som nuförtiden har stöd för att redigera lexem (men inte skapa)
- Skapa lexem med form: lexeme-forms.toolforge.org, sv substantiv: utrum, en (masskapa); neutrum, ett (masskapa)
Behandla data
- GetWordinSAOB.py, exempel på pythonkod på github för att hämta ord och IDn från SAOB
Wikidata sökninar (queryn)
- lexem med Ordbok över Finlands svenska folkmål ID (P12032), se sökning (kan ha flera IDn per lexem)
- lexem med P12032, unika lexem, med antal former and betydelser per lexem, se sökning (utan dubletter pga ID, dvs unika lexem)
- lexem med sammansatt av (P5238): fisk (8), båt (4), is (14), hav (3), se sökning
- exempel: Wikidata:Lexicographical_data/Ideas_of_queries
- svenska lexem med form(er) som har IPA-uttal (P898), se sökning
- lexem med form(er) som ha IPA-uttal (P898) med verkets eller namnets språk (P407), se sökning
- wikidata objekt med IPA-uttal (P898) med antal språk P407 per IPA, se sökning
- svenska lexem med form(er) som har uttal (ljudfil) (P443), se sökning
- alla formers IPA för ett lexem, se sökning