ISO/IEC 10646

ISO/IEC 10646, eller Universal Coded Character Set eller Universal Multiple-Octet Coded Character Set är en internationell standard för teckenkodning. Arbetet med ISO/IEC 10646 började synkroniseras 1991 med Unicode-standarden som gjorts av ett antal datorleverantörer sammanslutna i Unicode-konsortiet. Den första publicerade versionen var färdig 1993 och ett antal nya utgåvor av standarden har publicerats sedan dess. Arbetet med både Unicode och ISO/IEC 10646 är synkroniserat och ISO-standarden har samma teckenuppsättning, teckenkoder och teckennamn som Unicode.

ISO/IEC 10646 definierar en grundläggande teckenuppsättning, Universal Coded Character Set, UCS, och ett antal kodningar av denna. Kodningen UCS-4 omfattar hela UCS och där varje tecken representeras av ett 32-bitars tal (i praktiken samma som Unicodes UTF-32). UCS-2 omfattar endast de första 65536 tecknen i UCS och som representeras av ett 16-bitars tal. UCS-2 är föråldrad, då tecken allokerats som har fått kodpunkter större än 65535. UTF-16 är en utvidgning av UCS-2, och täcker i praktiken in hela UCS. UTF-8 är en multibyte-utvidgning av ASCII.

Förkortningen av Universal Coded Character Set är ”UCS” med ett C, inte ”UCCS”, trots att ordet ”Coded” nu ingår i det officiella namnet.^[1]

Unicode- (och ISO/IEC 10646) kodningar

UTF-8.
UTF-16, UTF-16BE, UTF-16LE.
UTF-32, UTF-32BE, UTF-32LE. Refereras till som UCS-4 i ISO/IEC 10646.
UTF-EBCDIC (icke-officiell kodning).
SCSU (icke-officiell kodning).
BOCU-1 (icke-officiell kodning).
Punycode (en TES avsedd endast för internationaliserade domännamn).

Unicode 4.1 (och ISO/IEC 10646:2003 plus Amd 1 och 2) i siffror

Det finns 237 299 tilldelade kodpositioner in Unicode version 4.1. Av dessa är:

1037 är latinska tecken (siffror och skiljetecken oräknat, då dessa är gemensamma för många skriftsystem),
502 är grekiska tecken,
266 är kyrilliska tecken,
966 är arabiska tecken (många av dessa är förformade tecken för sammanbindning, vilka inte bör användas för inmatning och lagring),
71 570 är kinesiska/japanska ideografiska tecken (i BMP och i SIP (plan 02))
11 172 är förkomponerade Hangulstavelser (alla kan uttryckas med sekvenser av Hangul-bokstäver, jamo),
2048 är reservade i BMP av tekniska skäl för att uttrycka supplementära (d.v.s. utanför BMP) kodpunkter i UTF-16,
137 468 är reserverade för "privat" användning (program och operativsystem kan definiera dem själva)
66 (varav 34 i BMP) är resererade för användning internt i applikationer,
65535 ligger i BMP (plan 0), de med nummer under 10000 (hex). Många program stödjer bara dessa.
etc.

Man använder beteckningen "kodpunkt" (code point) istället för tecken i Unicode, eftersom ett antal av dem inte representerar tecken. Det kan vara bland annat styrkoder för datorn, för presentation, för att uttrycka UTF-16 samt förbjudna kodpunkter.

Skillnader mellan Unicode och ISO/IEC 10646

Unicode standardiserar teckenegenskaper, vilket ISO/IEC 10646 inte gör. Teckenegenskaper är bl.a. "generell kategori" (bokstav, siffra, m.m.), radbrytningsegenskaper, egenskaper för bidirektionalitet, och mycket mer.

ISO/IEC 10646 har formaliserade "delmängder", vilket Unicode inte har.

Referenser

^ ”Publicly Available Standards: ISO/IEC 10646:2017 – INTERNATIONAL STANDARD ISO/IEC 10646 Reference number ISO/IEC 10646:2017(E) Fifth edition 2017-12”. International Organization for Standardization. https://standards.iso.org/ittf/PubliclyAvailableStandards/index.html. Läst 5 juni 2020.

[1] ”Publicly Available Standards: ISO/IEC 10646:2017 – INTERNATIONAL STANDARD ISO/IEC 10646 Reference number ISO/IEC 10646:2017(E) Fifth edition 2017-12”. International Organization for Standardization. https://standards.iso.org/ittf/PubliclyAvailableStandards/index.html. Läst 5 juni 2020.

[1]