www.wikidata.de-de.nina.az
UTF 1 war das erste UCS Transformation Format fur Unicode und ISO 10646 und wurde 1993 im Anhang G der ursprunglichen Version von ISO 10646 veroffentlicht ist jedoch heute nicht mehr Teil dieser Norm UTF 1 ist kompatibel zu ISO 2022 ASCII Zeichen C0 und C1 Steuerzeichen werden wie in ISO 8859 unverandert 1 1 kodiert Andere Zeichen werden uber eine relativ rechenaufwandige Modulo 190 Arithmetik als Zeichenfolgen von 2 3 oder 5 Byte Lange kodiert Dabei konnen auch ASCII Zeichen Teil dieser Zeichenfolgen sein Das hat den Nachteil dass zum Beispiel der Schragstrich in so einer Zeichenfolge enthalten sein kann so dass diese Kodierung nicht fur Dateinamen verwendet werden kann Aufgrund dieses Nachteils wurde spater eine andere Kodierung fur Unicode entwickelt welche anfangs UTF FSS file system safe genannt wurde und sich heute unter dem Namen UTF 8 allgemein durchgesetzt hat Inhaltsverzeichnis 1 Kodierung 1 1 Kodierungsbeispiele 2 Weblinks 3 EinzelnachweiseKodierung BearbeitenUTF 1 Kodierungsbereiche 1 Codebereich hex Kodierung Anmerkungen0 9F 0 9Fhex 1 1 Kodierung von ASCII und C0 und C1 SteuerzeichenA0 FF A0 x x ist das ursprungliche Oktett100 4015 A1 F5 p 2 Byte Sequenz4016 38E2D F6 FB p q 3 Byte Sequenz 38E2E FC FF p q r s 5 Byte SequenzFur die Erzeugung der Zeichenfolgen wird der Zeichencode als Zahl zur Basis 190 dargestellt und die Ziffern dieser Darstellung uber eine spezielle Lookup Funktion so in Bytes umgerechnet dass nur Bytes aus dem Bereich 21hex 7Ehex und A0hex FFhex entstehen um Kompatibilitat zu ISO 2022 zu erreichen UTF 1 Funktion T x x T x BemerkungenFormel Ergebnis00 5D x 21 21 7E Nur diese Werte treten bei der Modulo 190 Berechnung auf 5E BD x 42 A0 FFBE DE x BE 00 20 Nur zur Vollstandigkeit Diese Werte konnen bei der Modulo 190 Arithmetik nicht auftreten DF FF x 60 7F 9FDie Werte der einzelnen Bytes der Zeichenfolge ergeben sich anhand der folgenden Tabelle Die Modulo Operatopn wird mit gekennzeichnet die Division ist eine Ganzzahldivision ohne Rest Alle Zahlen sind Hexadezimalzahlen UTF 1 Berechnung der Zeichenfolgen x hex Hilfsvariable Zeichenfolge0 9F xA0 FF A0 x100 4015 y x 100 A1 y BE T y BE 4016 38E2D y x 4016 F6 y BE2 T y BE BE T y BE 38E2E y x 38E2E FC y BE4 T y BE3 BE T y BE2 BE T y BE BE T y BE Kodierungsbeispiele Bearbeiten In der nachfolgenden Tabelle wird die Kodierung einiger Unicode Zeichen in UTF 8 und UTF 1 gezeigt Hinweis Inzwischen wurde UCS und Unicode auf den Bereich bis max U 10FFFF begrenzt Als UTF 1 und UTF 8 entwickelt wurden existierte diese Begrenzung noch nicht Codepoint UTF 8 UTF 1 AnmerkungenU 007F 7F 7FU 0080 C2 80 80U 009F C2 9F 9FU 00A0 C2 A0 A0 A0U 00BF C2 BF A0 BFU 00C0 C3 80 A0 C0U 00FF C3 BF A0 FFU 0100 C4 80 A1 21 Das 2 Oktett bei UTF 1 liegt im Bereich von ASCII Codes U 015D C5 9D A1 7EU 015E C5 9E A1 A0U 01BD C6 BD A1 FFU 01BE C6 BE A2 21U 07FF DF BF AA 72 grosster Codepoint den UTF 8 in 2 Bytes kodieren kannU 0800 E0 A0 80 AA 73U 0FFF E0 BF BF B5 48U 1000 E1 80 80 B5 49U 4015 E4 80 95 F5 FF grosster Codepoint den UTF 1 in 2 Bytes kodieren kannU 4016 E4 80 96 F6 21 21U FFFF EF BF BF F7 65 AFU 10000 F0 90 80 80 F7 65 B0U 38E2D F0 B8 B8 AD FB FF FF grosster Codepoint den UTF 1 in 3 Bytes kodieren kannU 38E2E F0 B8 B8 AE FC 21 21 21 21 ab hier benotigt UTF 1 5 Bytes und ist somit ineffizienter als UTF 8U FFFFF F3 BF BF BF FC 21 37 B2 7AU 100000 F4 80 80 80 FC 21 37 B2 7BU 10FFFF F4 8F BF BF FC 21 39 6E 6C Grosster Codepoint der heute in Unicode erlaubt istU 7FFFFFFF FD BF BF BF BF BF FD BD 2B B9 40Weblinks Bearbeitenhttp www czyborra com utf 5 The universal charset Memento vom 11 Februar 2012 im Internet Archive http www std com obi Standards Network UTF utf cEinzelnachweise Bearbeiten kikaku itscj ipsj or jp Memento vom 18 Marz 2015 im Internet Archive Vorlage Webarchiv Wartung Linktext fehlt Linktext fehlt Abgerufen von https de wikipedia org w index php title UTF 1 amp oldid 225832179