Urval (språktypologi)

Urval (alternativt sampling)^{[källa behövs]} syftar inom språktypologi vanligen på de språkval som inkluderas i en typologisk undersökning, exempelvis med syfte att studera hur något förhåller sig inom världens språk. Ett urval ska vanligen vara balanserat i fråga om vilka språkgrupper eller familjer som finns representerade, för att undvika slagsida (eng. "bias") åt något drag som kan vara vanligare inom en viss familj eller ett visst område.

Det finns enligt vissa uppskattningar runt 7 000 språk i världen idag^[1], varav en minoritet är väl eller alls dokumenterade. Ändå finns det i många hänseenden så mycket information om så många språk att en typolog som vill veta något om världens språk omöjligen kan studera alla. Då måste ett urval göras; välja ett mindre antal språk som får representera samtliga språk som studeras^[2]. I många vetenskapliga fält gör man detta genom att slumpmässigt välja ut ett antal datapunkter och sedan stratifiera dessa – dela in dem i grupper efter parametrar som man vet påverkar det man försöker studera. Detta är av flera anledningar omöjligt inom språktypologi, eftersom en så betydande andel av språken (enligt vissa uppskattningar upp emot två tredjedelar) inte är beskrivna, att dessa ofta talas på isolerade platser, och hör till språkgrupper och familjer som i sin tur är underdokumenterade. På grund av detta vet vi också för lite om världens språk för att kunna stratifiera dem på ett vetenskapligt säkert sätt^[3].

För att kunna generalisera den information som hittas i urvalet, måste det i så stor utsträckning som möjligt vara representativt för samtliga språk som studeras (i typologiska undersökningar vanligen världens språk). För att detta ska uppnås måste ett mer aktivt urval göras, för att balansera eventuella snedfördelningar i den totala datamängden. Detta försvåras ytterligare av att olika typologiska frågeställningar kan kräva olika typer av urval^[3].

Sannolikhetsurval

Sannolikhetsstudier om att ett språk är av en viss typ (exempelvis sannolikheten att språkets adpositioner är primärt prepositioner, postpositioner, eller ingetdera) krävs ett sannolikhetsurval. Ett sådant urval bör inte innehålla flera språk som är lika på grund av att de ärvt draget i fråga från ett gemensamt moderspråk. För att uppnå detta måste språken i urvalet kontrolleras för genetiskt släktskap inom en för draget relevant del av deras utveckling. Det går även att kontrollera att inte flera språk finns med i urvalet som blivit lika på grund av nära kontakt med varandra, som att de talats i samma område med en hög grad av flerspråkighet. Hur mycket genetiskt släktskap och areal kontakt måste tas med i beräkningen beror slutligen på stabiliteten i det språkdrag som studeras û hur benäget draget är att förändras^[3].

Variationsurval

En helt annan situation uppstår vid skapande av ett urval för att studera ett drag om vilket vi inte vet mycket. Vid sådana tillfällen eftersträvar typologen istället att få reda på så mycket som möjligt om den variation gällande draget som finns bland världens språk. För att göra detta utförs urvalet i flera steg. Vanligen tas ett första urval baserat på så stor genetisk eller typologisk diversitet, eller mångfald, som möjligt. Eftersom språk placeras i familjer eller typer till viss del beroende på hur olika de är gällande ett antal språkliga drag, är det då också möjligt att de även kommer att uppvisa variation i det drag som studeras.

Om urvalet uppvisar stor variation i det studerade draget med många enstaka förekomster av ett värde, behöver urvalet utökas. Det utökas då med fortsatt fokus på att fånga en så stor genetisk eller typologisk variation som möjligt, till dess att inga nya värden påträffas. Detta görs för att försäkra sig om att även ovanliga värden av det studerade draget fångas upp i urvalet. Detta innebär att variationsurval ofta är betydligt större än sannolikhetsurval, med ibland många hundra språk^[3].

Antalet språk i urvalet är naturligtvis beroende av antalet förväntade värden. Om man studerar närvaron eller frånvaron av en viss konstruktion (exempelvis om ett språk har en dedikerad perfektform eller inte) behöver urvalet inte alls vara lika stort. I sådana fall kan ett litet men väl valt urval om 50-75 språk räcka för en översiktlig bild^[3].

Snedfördelning och möjliga felkällor

Det finns flera former av felkällor som kan ge slagsida i ett urval och göra det snedfördelat:

Bibliografisk slagsida – kanske den vanligaste formen av slagsida då endast en mindre del av världens språk finns dokumenterade. En del språkfamiljer och geografiska områden är betydligt bättre beskrivna än andra, och i de fall då mer ovanliga språk finns beskrivna är dessa ofta ytligare än för de mer välbeskrivna språken med många talare.
Genetisk slagsida – också mycket vanligt och beror till stor del på den bibliografiska slagsidan. Eftersom mycket data och fler modersmålstalare finns tillgängliga för vissa språkgrupper jämfört med andra, är det inte ovanligt att en del språkfamiljer, såsom den indoeuropeiska, och bantuspråk, är överrepresenterade i typologiska urval. Språk från Australien, Nya Guinea och Sydamerika är vanligen underrepresenterade.
Geografisk slagsida – uppstår när många språk från ett visst språkområde (ibland kallade Sprachbund) finns representerade. Det är områden med hög mångspråkighet där det finns stor risk att språken i området påverkat varandra genom kontakt. Berömda sådana områden är exempelvis Balkan och Sydasien. Sådana områden kännetecknas av att ett eller flera drag kan hittas hos i princips samtliga språk i en region, men inte i omkringliggande områden. Detta ger slagsida i utfallet hos sannolikhetsurval.
Typologisk slagsida – uppkommer när det finns överrepresentation av språk med ett visst drag som har direkt eller indirekt påverkan på det studerade draget. Detta märks kanske tydligast i samband med språkuniversalier av typen ”om ett språk har X, har det också (nästan alltid) Y”. Om denna tendens stämmer och Y är det drag som studeras, måste urvalet kontrolleras så att inte språk av X-typ är överrepresenterade.
Kulturell slagsida – är i synnerhet relevant om man tror på språklig relativism; att det finns en koppling mellan ett språks form och talarnas sätt att leva och tänka (Sapir-Whorfhypotensen). Om man antar att ett visst levnadssätt kommer att ta sig uttryck i språkets utformning, blir det relevant att kontrollera för kultur i urvalet, även om det inte är helt klart hur detta bäst ska göras^[3].

Diakron generalisering

Ett annat problem med språktypologiska urval, om man är ute efter att studera mänskligt språk, är att de 7000 språk som idag talas är en minoritet av alla de språk som någonsin har talats (vilka kan vara hundratusentals). De allra flesta av de språk som existerat har redan dött ut, eller utvecklats till ett annat språk genom inre språkförändring och/eller språkkontakt, vanligen utan att alls dokumenteras. Om vi tar dessa språk i beaktande är vilken språkvetenskaplig databas som helst begränsad till ett urval om under några enstaka procent av världens samtliga språk genom tiderna, och man kan därför ifrågasätta om det alls är möjligt att göra generaliseringar om mänskligt språk, baserat på ett urval av nu levande språk. Eftersom en del typologer söker fastställa språkuniversalier (utsagor som kan sägas gälla för alla mänskliga språk) är detta högst relevant att ha i åtanke^[3].

WALS-urvalen

Databasen (World Atlas of Language Structures^[4]) innehåller idag 144 kapitel som vart och ett behandlar en språklig struktur ur ett typologiskt perspektiv. Var och en av kapitelförfattarna har själva gjort sina urval av språk, men ett urval om 100 språk, och om det är möjligt 100 ytterligare, har författarna ombetts försöka inkludera, för att få en så jämförbar grund som möjligt. Liksom de flesta variationsurval eftersträvade man i WALS 100- och 200-urval att maximera den genetiska och geografiska variationen, men några ytterligare omständigheter inverkade i urvalet:

Formatet med kartor gjorde att man önskade få fler språkpunkter i vissa delar av världen, såsom Stillahavsöarna, där flertalet språk inkluderats trots att flertalet hör till samma familj. Detta gjordes för att vissa mångspråkiga delar av världen inte skulle ge intrycket av att ha få språk. Detsamma gjordes för subsahariska Afrika, där fler bantuspråk inkluderades för att inte regionen skulle representeras av mestadels genetiskt annorlunda men för regionen atypiska språk. En annan avvikelse från klassiska variationsurval är att ett antal stora språk talade i Eurasien tagits med, trots att dessa egentligen ligger allt för nära varandra genetiskt för att inkluderas: exempel på dessa är spanska, tyska, franska, modern hebreiska och egyptisk arabiska^[5].

Ytterligare en avvikelse är att man eftersträvade att inkludera språk för vilka detaljerade grammatiska beskrivningar existerar. När valet stod mellan ett antal genetiskt besläktade språk valde man alltså det mest välbeskrivna för att försäkra sig om att författarna skulle hitta nog med data för att inkludera detta grundurval. Detta gällde i synnerhet för 100-urvalet; i 200-urvalet förekommer en del mindre beskrivna språk, och det är därför mer ovanligt att hela 200-urvalet finns inkluderade i de olika kapitlen^[5].

Källor

^ Lewis, M. Paul, Gary F. Simons, and Charles D. Fennig (eds.) (2015) Ethnologue: Languages of the World, Eighteenth edition. Dallas, Texas: SIL International. Online version: http://www.ethnologue.com.
^ Croft, William (2003) Typology and Universals 2nd edition, Cambridge: Cambridge University press (sid. 19)
^ [a b c d e f g] Dik Bakker (27 november 2012). ”Language Sampling”. Oxford handbook online. http://www.oxfordhandbooks.com/view/10.1093/oxfordhb/9780199281251.001.0001/oxfordhb-9780199281251-e-007. Läst 2 juni 2015.
^ WALS
^ [a b] Bernard Comrie, Matthew S. Dryer, David Gil, Martin Haspelmath (2013). The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary. sid. Introduction. http://wals.info/chapter/s1

Vidare läsning

Bakker, Dik (2010) “Language Sampling” Jae Jung Song (ed.). Handbook of Linguistic Typology. Oxford: Oxford University Press. Nov 2010 Dahl, Östen (2008) "An exercise in a posteriori language sampling." STUF-Language Typology and Universals Sprachtypologie und Universalienforschung 61.3 2008: 208-220.

[1] Lewis, M. Paul, Gary F. Simons, and Charles D. Fennig (eds.) (2015) Ethnologue: Languages of the World, Eighteenth edition. Dallas, Texas: SIL International. Online version: http://www.ethnologue.com.

[2] Croft, William (2003) Typology and Universals 2nd edition, Cambridge: Cambridge University press (sid. 19)

[Bakker-3] [a b c d e f g] Dik Bakker (27 november 2012). ”Language Sampling”. Oxford handbook online. http://www.oxfordhandbooks.com/view/10.1093/oxfordhb/9780199281251.001.0001/oxfordhb-9780199281251-e-007. Läst 2 juni 2015.

[4] WALS

[WALS-5] [a b] Bernard Comrie, Matthew S. Dryer, David Gil, Martin Haspelmath (2013). The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary. sid. Introduction. http://wals.info/chapter/s1

[1]

[2]

[3]

[4]

[5]