www.wikidata.de-de.nina.az
UTF 8 Abkurzung fur 8 Bit UCS Transformation Format wobei UCS wiederum Universal Coded Character Set abkurzt ist die am weitesten verbreitete Kodierung fur Unicode Zeichen Unicode und UCS sind praktisch identisch Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan 9 Betriebssystem festgelegt Sie wurde zunachst im Rahmen von X Open als FSS UTF bezeichnet filesystem safe UTF in Abgrenzung zu UTF 1 das diese Eigenschaft nicht hat in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute ubliche Bezeichnung UTF 8 1 UTF 8 ist in den ersten 128 Zeichen Indizes 0 127 deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf fur Zeichen vieler westlicher Sprachen besonders fur die Kodierung englischsprachiger Texte die sich im Regelfall ohne Modifikation daher sogar mit nicht UTF 8 fahigen Texteditoren ohne Beeintrachtigung bearbeiten lassen was einen der Grunde fur den Status als De facto Standard Zeichenkodierung des Internet und damit verbundener Dokumenttypen darstellt Im April 2023 verwendeten 97 9 aller Websites UTF 8 2 und 98 8 der Top 1000 3 In anderen Sprachen ist der Speicherbedarf in Bytes pro Zeichen grosser wenn diese vom ASCII Zeichensatz abweichen Die deutschen Umlaute und das ss scharfe S erfordern zwei Bytes machen aber nur einen kleinen Teil deutscher Texte aus Ahnlich ist es bei anderen Sprachen wie beispielsweise Franzosisch welche uberwiegend die lateinischen Buchstaben aus dem ASCII Raum verwenden Griechische oder kyrillische Buchstaben belegen hingegen ebenfalls 2 Bytes allerdings bestehen daraus praktisch die kompletten Texte abgesehen von Leerzeichen Satzzeichen und Ziffern Zeichen fernostlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen sogar bis zu 4 Bytes je Zeichen Da die Verarbeitung von UTF 8 als Multibyte Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und fur bestimmte Sprachen auch mehr Speicherplatz erfordert werden abhangig vom Einsatzszenario auch andere UTF Kodierungen zur Abbildung von Unicode Zeichensatzen verwendet So fuhrte Microsoft 1993 mit Windows NT 3 1 die Verwendung von UCS 2 ein einer Zeichenkodierung bei der jedes Zeichen fest zwei Bytes belegt Da durch die spatere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF 16 Little Endian womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor 4 Inhaltsverzeichnis 1 Allgemeines 2 Eigenschaften 3 Normung 4 Kodierung 4 1 Algorithmus 4 2 Anmerkungen 4 3 Zulassige Bytes und ihre Bedeutung 4 4 Beispiele 5 Darstellung in Editoren 5 1 Byte Order Mark 5 2 Nicht im Unicodeblock Basis Lateinisch enthaltene Zeichen 6 Weblinks 7 EinzelnachweiseAllgemeines BearbeitenBei der UTF 8 Kodierung wird jedem Unicode Zeichen eine speziell kodierte Zeichenkette variabler Lange zugeordnet Dabei unterstutzt UTF 8 Zeichenketten bis zu einer Lange von vier Byte auf die sich wie bei allen UTF Formaten alle Unicode Zeichen abbilden lassen UTF 8 hat zentrale Bedeutung als globale Zeichenkodierung im Internet Die Internet Engineering Task Force verlangt von allen neuen Internet Kommunikationsprotokollen dass die Zeichenkodierung deklariert wird und dass UTF 8 eine der unterstutzten Kodierungen ist Das Internet Mail Consortium IMC empfiehlt dass alle E Mail Programme UTF 8 darstellen und senden konnen 5 Auch bei der in Webbrowsern angewendeten Auszeichnungssprache HTML hat sich UTF 8 zur Darstellung sprachspezifischer Zeichen durchgesetzt uber 97 Anteil im Oktober 2021 und ersetzt dabei die vorher genutzten HTML Entitaten 6 Eigenschaften BearbeitenMulti Byte Zeichenkodierung MBCS ahnlich CP950 CP936 CP932 chinesisch japanisch aber ohne die damals wichtige und nutzliche Eigenschaft dass doppelt breit dargestellte Zeichen zwei Bytes lang sind Multibyte Zeichenfolgen bestehen niemals aus 7 Bit ASCII Zeichen ermoglicht Verarbeitung und Parsen mit ublichen 7 Bit Zeichenkonstanten Im Vergleich zu UTF 16 relativ kompakt bei hohem Anteil an ASCII Zeichen jedoch platzintensiver bei Zeichen zwischen U 0800 und U FFFF v a asiatische Sprachen vgl Liste der Unicodeblocke Sortierbarkeit bleibt erhalten zwei UTF 8 Zeichenketten haben dieselbe Sortierreihenfolge wie zwei unkodierte Unicode Zeichenketten In beiden Richtungen durchsuchbar bei bisherigen MBCS nicht der Fall Einfache Transkodierungsfunktion zudem leicht Hardware implementierbar Reichlich Kodierungsreserve falls sich am Unicode Standard doch noch etwas andert selbstsynchronisierend 7 Normung BearbeitenUTF 8 ist von der IETF dem Unicode Konsortium und der ISO gegenwartig identisch definiert in den Normdokumenten RFC 3629 STD 63 2003 RFC 3629 STD 63 8 The Unicode Standard Version 4 0 3 9 3 10 2003 ISO IEC 10646 1 2000 Annex D 2000 Diese losen altere teilweise abweichende Definitionen ab die teilweise noch von alterer Software benutzt werden ISO IEC 10646 1 1993 Amendment 2 Annex R 1996 The Unicode Standard Version 2 0 Appendix A 1996 RFC 2044 1996 9 RFC 2279 1998 10 The Unicode Standard Version 3 0 2 3 2000 und Corrigendum 1 UTF 8 Shortest Form 2000 Unicode Standard Annex 27 Unicode 3 1 2001 Kodierung BearbeitenAlgorithmus Bearbeiten Unicode Zeichen mit Werten aus dem Bereich von 0 bis 127 0 bis 7F hexadezimal werden in der UTF 8 Kodierung als ein Byte mit dem gleichen Wert wiedergegeben Daher sind alle Daten fur die ausschliesslich ASCII Zeichen verwendet werden in beiden Darstellungen identisch Unicode Zeichen grosser als 127 werden in der UTF 8 Kodierung zu 2 bis 4 Byte langen Bytefolgen Unicode Bereich hex UTF 8 Kodierung binar Schema Erlauterungen Anzahl der codierbaren Zeichen0000 0000 0000 007F 0 a6a5a4a3a2a1a0 In diesem Bereich entspricht UTF 8 genau dem ASCII Code Das hochstwertige Bit ist 0 die restlichen Bits a6 0 kodieren das ASCII Zeichen 27 1280000 0080 0000 07FF 1 1 0 b2b1b0a7a6 1 0 a5a4a3a2a1a0 Das Startbyte beginnt immer mit 11 Folgebytes mit 10 c4 0b7 0a7 0 steht fur das zu kodierende max 21 Bit lange Zeichen Die Anzahl der Einsen 1 vor der ersten Null 0 im ersten Byte ist gleich der Gesamtzahl der Bytes fur das Zeichen 211 27 211 1920 2048 0000 0800 0000 FFFF 1 1 1 0 b7b6b5b4 1 0 b3b2b1b0a7a6 1 0 a5a4a3a2a1a0 216 211 216 63 488 65 536 0001 0000 0010 FFFF 1 1 1 1 0 c4c3c2 1 0 c1c0b7b6b5b4 1 0 b3b2b1b0a7a6 1 0 a5a4a3a2a1a0 220 221 1 048 576 2 097 152 Anmerkungen Bearbeiten Der Algorithmus lasst theoretisch unbeschrankt lange Byteketten zu Real definiert wurde ursprunglich eine Folge aus einem ersten Byte mit bis zu 1111110x und somit funf Folge Bytes der Form 10xxxxxx also zusammen sechs Byte mit insgesamt 31 Bit fur den enthaltenen Unicode Wert In seiner Verwendung als UTF Kodierung ist er aber auf den gemeinsamen Coderaum aller Unicode Kodierungen beschrankt also von 0 bis 0010 FFFF 1 114 112 Moglichkeiten und weist maximal vier Bytes lange Byteketten auf Der damit verfugbare Wertebereich fur den Zeichencode wird letztlich nicht vollstandig benutzt Entsprechend lange Bytefolgen und grosse Werte gelten heute als unzulassige Codes und sind entsprechend zu behandeln Das erste Byte eines UTF 8 kodierten Zeichens nennt man dabei Start Byte weitere Bytes heissen Folge Bytes Start Bytes beginnen also immer mit 0 oder 11 Folge Bytes immer mit 10 Ist das hochste Bit des ersten Bytes 0 handelt es sich um ein ASCII Zeichen da ASCII eine 7 Bit Kodierung ist und die ersten 128 Unicode Zeichen den ASCII Zeichen entsprechen Damit sind alle ASCII Zeichenketten automatisch aufwartskompatibel zu UTF 8 Ist das hochste Bit des ersten Bytes 1 handelt es sich um ein Mehrbytezeichen also ein Unicode Zeichen mit einer Zeichennummer grosser als 127 Sind die hochsten beiden Bits eines Bytes 11 handelt es sich um das Startbyte eines Mehrbytezeichens sind sie 10 um ein Folgebyte Die lexikalische Ordnung nach Bytewerten entspricht der lexikalischen Ordnung nach Zeichennummern da hohere Zeichennummern mit entsprechend mehr 1 Bits im Start Byte kodiert werden Bei den Startbytes von Mehrbyte Zeichen gibt die Anzahl der hochsten 1 Bits die gesamte Bytezahl des als Mehrbyte Zeichen kodierten Unicode Zeichens an Anders interpretiert die Anzahl der 1 Bits links des hochsten 0 Bits entspricht der Anzahl an Folgebytes plus eins z B 1110xxxx 10xxxxxx 10xxxxxx drei Bits vor dem hochsten 0 Bit drei Bytes insgesamt zwei Bits nach dem hochsten 1 Bit vor dem hochsten 0 Bit zwei Folgebytes Startbytes 0 oder 11 und Folgebytes 10 lassen sich eindeutig voneinander unterscheiden Somit kann ein Bytestrom auch in der Mitte gelesen werden ohne dass es Probleme mit der Dekodierung gibt was insbesondere bei der Wiederherstellung defekter Daten wichtig ist Bytes beginnend mit 10 werden einfach ubersprungen bis 0 oder 11 erkannt wird Dass Startbytes und Folgebytes eindeutig voneinander unterschieden sind ist ein Vorteil der UTF 8 Kodierung Bei Kodierungen ohne diese Eigenschaft ist das Lesen eines Datenstroms dessen Beginn unbekannt ist unter Umstanden nicht moglich Zu beachten Das gleiche Zeichen kann theoretisch auf unterschiedliche Weise kodiert werden Zum Beispiel a als 01100001 oder falschlich als 11000001 10100001 Jedoch ist nur die jeweils kurzestmogliche Kodierung erlaubt Dieser Umstand hat mehrfach zu Problemen gefuhrt wenn Programme bei ungultigen Kodierungen absturzen diese als gultig interpretieren oder einfach ignorieren Die Kombinationen der letzten beiden Verhaltensweisen fuhrte z B zu Firewalls die gefahrliche Inhalte auf Grund der ungultigen Kodierung nicht erkennen wo jedoch der zu schutzende Client diese Kodierungen als gultig interpretiert und dadurch gefahrdet ist Bei mehreren Bytes fur ein Zeichen werden die Bits bundig angeordnet das niedrigste Bit least significant bit des Unicode Zeichens steht also immer im niedrigsten Bit des letzten UTF 8 Bytes Ursprunglich gab es auch Kodierungen mit mehr als vier Oktetten bis zu sechs diese sind jedoch ausgeschlossen worden da es in Unicode keine korrespondierenden Zeichen gibt und ISO 10646 in seinem moglichen Zeichenumfang an Unicode angeglichen wurde Fur alle auf dem lateinischen Alphabet basierenden Schriften ist UTF 8 eine besonders platzsparende Methode zur Abbildung von Unicode Zeichen Die Unicode Bereiche U D800 bis U DBFF und U DC00 bis U DFFF sind ausdrucklich keine Zeichen sondern dienen nur in UTF 16 zur Kodierung von Zeichen ausserhalb der Basic Multilingual Plane sie wurden fruher als Low und High surrogates bezeichnet Folglich sind Bytefolgen die diesen Bereichen entsprechen kein gultiges UTF 8 Zum Beispiel wird U 10400 in UTF 16 als D801 DC00 dargestellt sollte in UTF 8 aber als F0 90 90 80 und nicht als ED A0 81 ED B0 80 ausgedruckt werden Java unterstutzt dies seit der Version 1 5 11 Aufgrund der weiten Verbreitung der falschen Kodierung insbesondere auch in Datenbanken wurde diese Kodierung nachtraglich als CESU 8 normiert In UTF 8 UTF 16 und UTF 32 ist jeweils der gesamte Wertebereich von Unicode kodiert Kann eine Byte Sequenz nicht als UTF 8 Zeichen interpretiert werden so wird es beim Lesen in der Regel durch das Unicode Replacement Zeichen U FFFD bzw EF BF BD ersetzt Zulassige Bytes und ihre Bedeutung Bearbeiten Durch die Kodierungsregel von UTF 8 sind bestimmte Bytewerte nicht zulassig In nachfolgender Tabelle sind alle 256 Moglichkeiten aufgefuhrt und deren Verwendung bzw Gultigkeit angegeben Bytewerte in roten Zeilen sind unzulassig grun beschreibt zulassige Bytewerte welche unmittelbar ein Zeichen darstellen In blau sind jene Werte hinterlegt welche den Start einer Sequenz von zwei oder mehr Byte beginnen und als Sequenz mit den Bytewerten aus orange hinterlegten Zeilen fortgesetzt werden UTF 8 Wertebereich BedeutungBinar Hexadezimal Dezimal00000000 01111111 00 7F 0 127 Ein Byte lange Zeichen deckungsgleich mit US ASCII10000000 10111111 80 BF 128 191 Zweites drittes oder viertes Byte einer Bytesequenz11000000 11000001 C0 C1 192 193 Start einer 2 Byte langen Sequenz welche den Codebereich aus 0 bis 127 abbildet unzulassig11000010 11011111 C2 DF 194 223 Start einer 2 Byte langen Sequenz U 0080 U 07FF Startbyte abgedeckter CodebereichC2 U 0080 U 00BFC3 U 00C0 U 00FFC4 U 0100 U 013FC5 U 0140 U 017FC6 U 0180 U 01BFC7 U 01C0 U 01FFC8 U 0200 U 023FC9 U 0240 U 027FCA U 0280 U 02BFCB U 02C0 U 02FFCC U 0300 U 033FCD U 0340 U 027FCE U 0380 U 03BFCF U 03C0 U 03FFD0 U 0400 U 043FD1 U 0440 U 047FD2 U 0480 U 04BFD3 U 04C0 U 04FFD4 U 0500 U 053FD5 U 0540 U 057FD6 U 0580 U 05BFD7 U 05C0 U 05FFD8 U 0600 U 063FD9 U 0640 U 067FDA U 0680 U 06BFDB U 06C0 U 06FFDC U 0700 U 073FDD U 0740 U 077FDE U 0780 U 07BFDF U 07C0 U 07FF11100000 11101111 E0 EF 224 239 Start einer 3 Byte langen Sequenz U 0800 U FFFF Startbyte abgedeckter Codebereich AnmerkungE0 U 0800 U 0FFF 2 Byte 80 9F unzulassige Kodierung fur U 0000 U 07FFA0 BF U 0800 U 0FFFE1 U 1000 U 1FFFE2 U 2000 U 2FFFE3 U 3000 U 3FFFE4 U 4000 U 4FFFE5 U 5000 U 5FFFE6 U 6000 U 6FFFE7 U 7000 U 7FFFE8 U 8000 U 8FFFE9 U 9000 U 9FFFEA U A000 U AFFFEB U B000 U BFFFEC U C000 U CFFFED U D000 U DFFF 2 Byte 80 9F U D000 U D7FFA0 BF unzulassig Siehe CESU 8EE U E000 U EFFF Private Use Zone EF U F000 U FFFF Private Use Zone wenn 2 Byte im Bereich 80 A3 11110000 11110100 F0 F4 240 244 Start einer 4 Byte langen Sequenz Inklusive der ungultigen Codebereiche von 110000 bis 13FFFF Startbyte abgedeckter CodebereichF0 U 10000 U 3FFFF 2 Byte muss aus Bereich 90 BF sein wobei B0 BF der bisher ungenutzten Ebene 3 entspricht F1 U 40000 U 7FFFF derzeit keine gultigen Zeichen in diesem Bereich F2 U 80000 U BFFFF derzeit keine gultigen Zeichen in diesem Bereich F3 U C0000 U FFFFFF4 U 100000 U 10FFFF 2 Byte muss aus Bereich 80 8F sein 11110101 11110111 F5 F7 245 247 Ungultig nach RFC 3629 8 Start einer 4 Byte langen Sequenz fur Codebereich uber 14000011111000 11111011 F8 FB 248 251 Ungultig nach RFC 3629 8 Start einer 5 Byte langen Sequenz11111100 11111101 FC FD 252 253 Ungultig nach RFC 3629 8 Start einer 6 Byte langen Sequenz11111110 11111111 FE FF 254 255 Ungultig In der ursprunglichen UTF 8 Spezifikation nicht definiert Code 0 1 2 3 4 5 6 7 8 9 A B C D E F0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US2 SP amp 3 0 1 2 3 4 5 6 7 8 9 lt gt 4 A B C D E F G H I J K L M N O5 P Q R S T U V W X Y Z 6 a b c d e f g h i j k l m n o7 p q r s t u v w x y z DEL8 Zweites drittes oder viertes Byte einer Bytesequenz9 A B C Start einer 2 Byte langen SequenzD E Start einer 3 Byte langen SequenzF Start einer 4 Byte langen Sequenz 0 1 2 3 4 5 6 7 8 9 A B C D E FBeispiele Bearbeiten In folgender Tabelle sind einige Kodierungsbeispiele fur UTF 8 angegeben Beispiele fur UTF 8 Kodierungen Zeichen Unicode Unicode binar UTF 8 binar UTF 8 hexadezimalBuchstabe y U 0079 00000000 01111001 01111001 79Buchstabe a U 00E4 00000000 11 100100 11000011 10100100 C3 A4Zeichen fur eingetragene Marke U 00AE 00000000 10 101110 11000010 10101110 C2 AEEurozeichen U 20AC 0010 0000 10 101100 11100010 10000010 10101100 E2 82 ACViolinschlussel U 1D11E 000000 01 1101 0001 00 011110 11110000 10011101 10000100 10011110 F0 9D 84 9EDas letzte Beispiel liegt ausserhalb des ursprunglich in Unicode unter Version 2 0 enthaltenen Codebereiches 16 Bit der in der aktuellen Unicode Version als BMP Bereich Ebene 0 enthalten ist Da derzeit viele Schriftarten diese neuen Unicode Bereiche noch nicht enthalten konnen die dort enthaltenen Zeichen auf vielen Plattformen nicht korrekt dargestellt werden Stattdessen wird ein Ersatzzeichen dargestellt welches als Platzhalter dient Darstellung in Editoren BearbeitenByte Order Mark Bearbeiten Obwohl bei UTF 8 aufgrund der Art der Kodierung grundsatzlich nicht das Problem unterschiedlicher Bytereihenfolgen auftreten kann fugen einige Programme eine Byte Order Mark BOM deutsch Bytereihenfolge Markierung am Dateianfang von UTF 8 Dateien ein Die BOM besteht aus der Bytesequenz EF BB BF die in nicht UTF 8 fahigen Texteditoren und Browsern meist als ISO 8859 1 Zeichenfolge i erscheint und fur Kompatibilitatsprobleme verantwortlich sein kann Nicht im Unicodeblock Basis Lateinisch enthaltene Zeichen Bearbeiten Die Buchstaben des lateinischen Grundalphabets sowie die wichtigsten Satzzeichen werden in UTF 8 und ISO 8859 identisch angezeigt Probleme mit der falsch gewahlten Zeichencodierung treten bei den anderen Zeichen auf beispielsweise bei Umlauten In deutschsprachigen Texten treten diese Zeichen jedoch nur vereinzelt auf sodass der Text zwar stark entstellt wirkt aber meist noch lesbar bleibt In UTF 8 bestehen die Umlaute des deutschen Alphabets sofern sie in der Normalform NFC vorliegen also als precomposed character und das ss aus zwei Bytes nach ISO 8859 wird jedes Zeichen als 1 Byte codiert und jedes Byte beim Lesen in ein Zeichen transformiert Das in der UTF 8 Kodierung dieser Buchstaben gemeinsame erste Byte C3hex wird wie der Tabelle zu entnehmen ist jeweils unterschiedlich decodiert ebenso das weitere Byte der Codierung von aou dagegen wird bei AOUss das zweite Byte nicht oder mit dem gleichen Fehler Zeichen dargestellt weil 7Fhex bis 9Fhex in ISO 8859 nicht definiert sind was die Lesbarkeit des Textes zusatzlich erschwert Bei der Interpretation eines in ISO 8859 codierten Textes als UTF 8 fuhren die Buchstaben ou zur Anzeige eines Ersetzungszeichens weil der entsprechende Byte Wert wie der Tabelle unten zu entnehmen ist nicht definiert ist Bei den Buchstaben aouss wird ein Start Byte angenommen und versucht das nachste Byte als Folgebyte gemeinsam als ein Zeichen zu interpretieren Das scheitert haufig weil die Codierungen der meisten Buchstaben keine gultigen Folgebytes sind Bei einem a wird sogar versucht die nachsten beiden Bytes als Folgebyte zu interpretieren was aus denselben Grunden regelmassig scheitert Je nach Programmierung des anzeigenden Programms verschwinden womoglich entsprechend viele Buchstaben aus dem Text UTF 8 Text mit anderem Encoding geoffnet UTF 8 ISO 8859 1 ISO 8859 15 UTF16U 00E4 C3A4hex a A A 쎤U 00F6 C3B6hex o A A 쎶U 00FC C3BChex u A AŒ 쎼U 00DF C39Fhex ss A A 쎟U 00C4 C384hex A A A 쎄U 00D6 C396hex O A A 쎖U 00DC C39Chex U A A 쎜ISO Latin 1 2 3 4 5 6 7 8 9 10 UTF 8ISO IEC 8859 1 2 3 4 9 10 13 14 15 16Bin Oct Dec Hex1010 0100 244 164 A4 i Ċ Folgebyte 241011 0110 266 182 B6 s ĥ l k Folgebyte 361011 1100 274 188 BC z ĵ ŧ z ỳ Œ Folgebyte 3C1100 0011 303 195 C3 A Ă A C A Ă Startbyte Latin 00801100 0100 304 196 C4 A Startbyte Latin 00C01101 0110 326 214 D6 O Startbyte Hebrew 05801101 1100 334 220 DC U Startbyte Syriac 07001101 1111 337 223 DF ss Startbyte N Ko 07C01110 0100 344 228 E4 a Startbyte Kana 30001111 0110 366 246 F6 o unzulassig1111 1100 374 252 FC u unzulassigEin Beispiel fur das Wort Hohe UTF 8 Text in ISO 8859 1 9 13 16 Umgebung Hohe HA he ISO 8859 1 Text in UTF 8 Umgebung Hohe H he bzw Fehlermeldung mit Abbruch Ein Byte mit dem Hexadezimalwert F6 ist in UTF 8 nicht zulassig Es ist ublich fur nicht konvertierbare Zeichen das Ersetzungszeichen U FFFD einzufugen Weblinks Bearbeiten nbsp Wiktionary UTF 8 Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen RFC 3629 UTF 8 a transformation format of ISO 10646 2003 Standard STD63 englisch UTF 8 Codetabelle mit Unicode Zeichen UTF 8 Kodierung aller Unicode Positionen aus der BMP mit Zusatzinformationen und benannten HTML Entitaten Dieter Pawelczak Kodierung von Zeichenfolgen Beispiel UCS UTF8 Universitat der Bundeswehr Munchen Institut fur Software Engineering Pavel Radzivilovsky Yakov Galka Slava Novgorodov UTF 8 Everywhere Manifesto englisch Einzelnachweise Bearbeiten RFC 3629 UTF 8 a transformation format of ISO 10646 2003 Abschnitt 1 Introduction englisch Historical trends in the usage of character encodings for websites In W3Techs Q Success abgerufen am 5 Marz 2019 englisch Usage of character encodings broken down by ranking In W3Techs Q Success abgerufen am 7 Marz 2019 englisch UTF 8 Everywhere Manifesto Abgerufen am 22 Dezember 2021 englisch Using International Characters in Internet Mail Memento vom 26 Oktober 2007 im Internet Archive Internet Mail Consortium 1 August 1998 abgerufen am 12 Juli 2012 englisch Usage statistics of character encodings for websites In W3Techs Q Success abgerufen am 31 Oktober 2021 englisch UTF 8 Bits Bytes and Benefits a b c d RFC 3629 UTF 8 a transformation format of ISO 10646 2003 Standard STD63 englisch RFC 2044 UTF 8 a transformation format of Unicode and ISO 10646 Oktober 1996 englisch RFC 2279 UTF 8 a transformation format of ISO 10646 Januar 1998 englisch Norbert Lindenberg Masayoshi Okutsu Supplementary Characters in the Java Platform In Oracle Website Sun Microsystems Mai 2004 abgerufen am 9 Juni 2019 englisch Abgerufen von https de wikipedia org w index php title UTF 8 amp oldid 237115045