www.wikidata.de-de.nina.az
Der Unicode Standard Aussprachen amerikanisches Englisch ˈjuːnikoʊd britisches Englisch ˈjuːnikeʊd dt ˈjuːnikoːt legt fest wie Schrift elektronisch gespeichert wird z B auf einem Computer oder Telefon Der durch den Standard festgelegte Zeichensatz enthalt 149 186 Zeichen in der Version Unicode 15 0 1 Das Unicode Konsortium hat dazu 161 moderne und alte Schriften berucksichtigt wie auch Symbole Emojis und nicht druckbare Steuerzeichen Die ISO bezeichnet den Standard als ISO 10646 und den Zeichensatz als Universal Coded Character Set UCS Logo von UnicodeUnicode muss auch tatsachlich in Nullen und Einsen ubersetzt werden Eine solche Umwandlung wird als Unicode Transformation Format UTF bezeichnet Durchgesetzt hat sich dabei UTF 8 In einigen Fallen ist auch noch UTF 16 anzutreffen speziell in Betriebssystemen und Programmiersprachen da eine Umstellung nicht einfach ist Inhaltsverzeichnis 1 Geschichte 2 Versionen 3 Inhalt des Standards 3 1 Gliederung 3 2 Codepunkte und Zeichen 3 3 PUA Private Use Area privat nutzbarer Bereich 3 4 Kodierung 3 5 Normalisierung 3 6 Sortierung 4 Normierungsinstitutionen 5 Kodierungskriterien 6 Standardisierte Teilmenge von Unicode fur Europa 7 Verwendung auf Computersystemen 7 1 Codepunkt Eingabemethoden 7 1 1 Direkte Eingabe auf Betriebssystemebene 7 1 1 1 Microsoft Windows 7 1 1 2 Apple macOS 7 1 2 Direkte Eingabe in spezieller Software 7 1 2 1 Microsoft Office und LibreOffice 7 1 2 2 Qt und GTK 7 1 2 3 Vim 7 1 3 Auswahl uber Zeichentabellen 7 2 Codepunkt Angaben in Dokumenten 8 Kritik 9 Schriftarten 9 1 Auswahl an Unicode Schriftarten 9 2 Ersatzschriftarten 10 Siehe auch 11 Literatur 12 Weblinks 13 EinzelnachweiseGeschichte BearbeitenHerkommliche Computer Zeichensatze umfassen nur einen begrenzten Vorrat an Zeichen bei westlichen Zeichenkodierungen liegt diese Grenze meistens bei 128 7 Bit Codepositionen wie bei dem sehr bekannten ASCII Standard oder 256 8 Bit Positionen wie z B bei ISO 8859 1 auch als Latin 1 bekannt oder EBCDIC Davon sind nach Abzug der Steuerzeichen 95 Elemente bei ASCII und 191 Elemente bei den 8 Bit ISO Zeichensatzen als Schrift und Sonderzeichen darstellbar Diese Zeichenkodierungen erlauben die gleichzeitige Darstellung nur weniger Sprachen im selben Text wenn man sich nicht damit behilft in einem Text verschiedene Schriften mit unterschiedlichen Zeichensatzen zu verwenden Das behinderte den internationalen Datenaustausch in den 1980er und 1990er Jahren erheblich ISO 2022 2 war ein erster Versuch mehrere Sprachen mit nur einer Zeichenkodierung darstellen zu konnen Die Kodierung benutzt Escape Sequenzen um zwischen verschiedenen Zeichensatzen z B zwischen Latin 1 und Latin 2 wechseln zu konnen Das System setzte sich jedoch nur in Ostasien durch 3 Joseph D Becker von Xerox schrieb 1988 den ersten Entwurf fur einen universalen Zeichensatz Dieser 16 Bit Zeichensatz sollte nach den ursprunglichen Planen lediglich die Zeichen moderner Sprachen kodieren Unicode gives higher priority to ensuring utility for the future than to preserving past antiquities Unicode aims in the first instance at the characters published in modern text e g in the union of all newspapers and magazines printed in the world in 1988 whose number is undoubtedly far below 214 16 384 Beyond those modern use characters all others may be defined to be obsolete or rare these are better candidates for private use registration than for congesting the public list of generally useful Unicodes Unicode legt grosseren Wert darauf die Verwendbarkeit fur die Zukunft sicherzustellen als vergangene Altertumlichkeiten zu erhalten Unicode zielt in erster Linie auf alle Zeichen die in modernen Texten veroffentlicht werden etwa in allen Zeitungen und Zeitschriften der Welt des Jahres 1988 deren Anzahl zweifelsfrei weit unter 214 16 384 liegt Weitere Zeichen die uber diese heutigen Zeichen hinausgehen konnen als veraltet oder selten erachtet werden diese sollten besser uber einen privaten Modus registriert werden statt die offentliche Liste der allgemein nutzlichen Unicodes zu uberfullen Joseph D Becker 4 Im Oktober 1991 5 wurde nach mehrjahriger Entwicklungszeit die Version 1 0 0 des Unicode Standards veroffentlicht die damals nur die europaischen nahostlichen und indischen Schriften kodierte 6 Erst acht Monate spater nachdem die Han Vereinheitlichung abgeschlossen war erschien Version 1 0 1 die erstmals ostasiatische Zeichen kodierte Mit der Veroffentlichung von Unicode 2 0 im Juli 1996 wurde der Standard von ursprunglich 65 536 auf die heutigen 1 114 112 Codepunkte von U 0000 bis U 10FFFF erweitert 7 Versionen BearbeitenVersion Datum Schrift systeme Zeichen Erweiterungen1 0 0 8 Oktober 1991 24 7 161 Erste Version Arabisch Armenisch Bengalisch Bopomofo Kyrillisch Devanagari Georgisch Griechisch und Koptisch Gujarati Gurmukhi Hangul Hebraisch Hiragana Kannada Katakana Laotisch Lateinisch Malayalam Oriya Tamilisch Telugu Thailandisch und Tibetisch Wahrungszeichen1 0 1 9 Juni 1992 25 28 359 Vereinheitlichte chinesisch japanisch koreanische Schriftzeichen CJK Schriftzeichen siehe auch Unicodeblock Vereinheitlichte CJK Ideogramme 1 1 10 Juni 1993 24 34 233 Zusatzliche koreanische Silbenzeichen Entfernung der tibetischen Schrift aus dem Standard 11 Dingbats langes s2 0 12 Juli 1996 25 38 950 Neuer Unicodeblock fur Hangeul Silbenzeichen Wiedereinfuhrung der tibetischen Schrift 11 2 1 13 Mai 1998 25 38 952 Eurozeichen sowie ein Objektersetzungszeichen3 0 14 September 1999 38 49 259 Syrisches Alphabet Thaana Alphabet singhalesische Schrift birmanische Schrift athiopische Schrift Cherokee Alphabet Cree Schrift Ogham Runen Khmer Schrift mongolische Schrift Brailleschrift Yi zusatzliche CJK Schriftzeichen3 1 15 Marz 2001 41 94 205 Altitalisches Alphabet gotisches Alphabet Deseret Alphabet Notenschrift weitere CJK Schriftzeichen3 2 16 Marz 2002 45 95 221 Baybayin Hanuno o Buid Schrift Tagbanuwa Schrift4 0 17 April 2003 52 96 447 Limbu Schrift Tai Nua Linearschrift B ugaritische Schrift Shaw Alphabet Osmaniya Schrift kyprische Schrift4 1 18 Marz 2005 59 97 720 Koptische Schrift als eigenstandig vom griechischen Alphabet Tai Lu Lontara glagolitische Schrift Nuschuri Tifinagh Schrift Sylheti Nagari Persische Keilschrift Kharoshthi Schrift5 0 19 Juli 2006 64 99 089 N Ko balinesische Schrift Phagpa Schrift phonizische Schrift Keilschrift5 1 20 April 2008 75 100 713 Sundanesische Schrift Lepcha Schrift Ol Chiki Vai Schrift Saurashtri Schrift Kayah Li Rejang Schrift Cham Schrift lykische Schrift karische Schrift lydische Schrift grosses ss5 2 21 Oktober 2009 90 107 361 Samaritanische Schrift Lanna Schrift Fraser Alphabet Bamun Schrift javanische Schrift Tai Viet Schrift Meitei Mayek aramaische Schrift altsudarabische Schrift avestische Schrift parthische Schrift Pahlavi Schrift Orchon Runen Kaithi Schrift agyptische Hieroglyphen zusatzliche CJK Schriftzeichen6 0 22 Oktober 2010 93 109 242 Batak Schrift Brahmi Schrift mandaische Schrift Emoji6 1 23 Januar 2012 100 110 181 Meroitische Schrift Sora Sompeng Chakma Schrift Sharada Schrift Takri Schrift Pollard Schrift6 2 24 September 2012 100 110 182 Wahrungszeichen der turkischen Lira6 3 25 September 2013 100 110 187 5 weitere bidirektionale Steuerzeichen mit Anderungen des Unicode Bidi Algorithmus Variantenselektoren fur CJK Kompatibilitatsideogramme verbesserter hebraischer Wortumbruch und CJK Zeilenumbruch7 0 26 Juni 2014 123 113 021 Wahrungssymbole fur Manat und Rubel Lautschriftzeichen fur Teuthonista und andere in der deutschen Dialektologie verwendete Schriftzeichen piktografische Symbole Altnordarabische Schrift Altpermische Schrift Bassa Schrift Duploye Kurzschrift Elbasan Schrift Grantha Schrift Kaukasisch Albanische Schrift Khojki Schrift Khudabadi Schrift Linearschrift A Mahajani Schrift Manichaische Schrift Mende Schrift Modi Schrift Mro Schrift Nabataische Schrift Pahawh Hmong Palmyrenische Schrift Pau Cin Hau Psalter Pahlavi Siddham Tirhuta Warang Citi8 0 27 Juni 2015 129 120 737 Kleinbuchstaben des Cherokee Alphabets 5771 weitere CJK Zeichen 41 weitere Emoji Wahrungssymbol fur den georgischen Lari Ziffernformen fur das Duodezimalsystem Schriftzeichen fur Icetot Ahom Schrift Anatolische Hieroglyphen Hatran Schrift Altungarische Schrift Multani Schrift SignWriting9 0 28 Juni 2016 135 128 172 Schriften fur Osage Newari Fulfulde Swahili Dialekt von Baraawe Warsh Variante des Arabischen Tangut Xixia Schrift sowie 72 neue Emoji und 19 Symbole fur Ultra High Definition Television10 0 29 Juni 2017 139 136 690 Schriften fur Gondi Nushu Hentaigana sowie 56 neue Emoji und das Bitcoin Symbol11 0 30 Juni 2018 146 137 374 Schriften fur Dogri Makassar Sprache Medefaidrin Sogdische Sprache Hanifi Rohingya Gondi Mtavruli sowie 66 neue Emoji12 0 31 Marz 2019 150 137 928 Schriften fur Elymaisch Nagari Hmong und Miao sowie 61 neue Emoji 12 1 32 Mai 2019 150 137 929 Ein neues Zeichen fur die Reiwa Zeit wurde hinzugefugt 13 0 33 Marz 2020 154 143 859 Schriften fur Choresmische Sprache Dives Akuru Khitan Small Script Jesidisch sowie 55 neue Emoji 14 0 34 September 2021 159 144 697 Schriften fur Cypro Minoan Old Uyghur Vithkuqi Tangsa Toto sowie 37 neue Emoji 15 0 35 September 2022 161 149 186 Schriften fur Kawi Nag Mundari weitere Codeblocke ausserhalb der BMP Die Veroffentlichung neuer Versionen zieht sich teilweise uber einen langeren Zeitraum hin sodass zum Veroffentlichungszeitpunkt zunachst nur die Zeichentabellen und einzelne Teile der Spezifikation fertig sind wahrend die endgultige Veroffentlichung der Hauptspezifikation erst einige Zeit spater erfolgt Inhalt des Standards BearbeitenDas Unicode Konsortium stellt mehrere Dokumente zur Unterstutzung von Unicode bereit Neben dem eigentlichen Zeichensatz sind dies des Weiteren auch andere Dokumente die zwar nicht zwingend notwendig aber dennoch hilfreich zur Interpretation des Unicode Standards sind Gliederung Bearbeiten Siehe auch Liste der Unicodeblocke Grafische Darstellung der Basic Multilingual PlaneIm Gegensatz zu fruheren Zeichenkodierungen die meist nur ein bestimmtes Schriftsystem kodierten ist es das Ziel von Unicode alle in Gebrauch befindlichen Schriftsysteme und Zeichen zu kodieren 36 Der Zeichenumfang ist dazu in 17 Ebenen englisch planes gegliedert welche jeweils 216 65 536 Codepoints umfassen 37 Sechs dieser Ebenen werden bereits verwendet die restlichen sind fur spatere Nutzung reserviert Die Basic Multilingual Plane BMP deutsch Mehrsprachige Basis Ebene auch als Plane 0 bezeichnet enthalt hauptsachlich Schriftsysteme die aktuell in Gebrauch sind Satzzeichen und Symbole Steuerzeichen und Surrogate Paare und einen privat nutzbaren Bereich PUA 37 Die Ebene ist stark fragmentiert und weitgehend belegt sodass neu zu codierende Schriftsysteme hier keinen Platz mehr finden Der Zugriff auf andere Ebenen als der BMP ist in manchen Programmen noch nicht oder nur eingeschrankt moglich Die Supplementary Multilingual Plane SMP dt Erganzende mehrsprachige Ebene auch als Plane 1 bezeichnet wurde mit Unicode 3 1 eingefuhrt Sie enthalt vor allem historische Schriftsysteme aber auch grossere Ansammlungen an Zeichen die selten in Gebrauch sind wie z B Domino und Mah Jonggsteine und Emoji Mittlerweile werden auch Schriftsysteme in der SMP codiert die noch in Benutzung sind aber in der BMP keinen Platz mehr finden 37 Die Supplementary Ideographic Plane SIP dt Erganzende ideographische Ebene auch als Plane 2 bezeichnet die ebenfalls mit Unicode 3 1 eingefuhrt wurde enthalt ausschliesslich CJK Schriftzeichen die selten benutzt werden dazu zahlen unter anderem auch die Chữ Nom die fruher in Vietnam benutzt wurden 37 Sollte diese Ebene dafur nicht ausreichen ist Plane 3 fur weitere CJK Schriftzeichen reserviert 38 Die Supplementary Special purpose Plane SSP dt Erganzende Ebene fur spezielle Verwendungen auch als Plane 14 bezeichnet enthalt einige wenige Steuerzeichen zur Sprachmarkierung 37 Die letzten beiden Ebenen jeweils Supplementary Private Use Area A und B PUA auch Plane 15 und Plane 16 stehen als privat nutzbare Bereiche PUA zur Verfugung 39 Sie werden teilweise auch als Private Use Planes 40 PUP bezeichnet Innerhalb dieser Ebenen werden zusammengehorende Zeichen in Blocken engl blocks zusammengefasst Meist behandelt ein Unicodeblock ein Schriftsystem aus historischen Grunden hat sich allerdings ein gewisses Mass an Fragmentierung eingestellt Oft wurden spater noch Zeichen hinzugefugt und in anderen Blocken als Erganzung untergebracht 39 Codepunkte und Zeichen Bearbeiten Jedes im Unicode Standard codierte elementare Zeichen ist einem Codepunkt engl code points zugeordnet Diese werden ublicherweise hexadezimal mindestens vierstellig d h ggf mit fuhrenden Nullen und mit einem vorangestellten U dargestellt z B U 00DF fur das ss 41 Der gesamte vom Unicode Standard beschriebene Bereich umfasst 1 114 112 Codepunkte U 0000 U 10FFFF 17 Ebenen zu je 216 d h 65536 Zeichen Davon lasst der Standard jedoch fur einige Bereiche die Verwendung zur Zeichenkodierung nicht zu 2048 Codepunkte im Bereich U D800 U DFFF werden als Teile von Surrogate Paaren im Kodierungsschema UTF 16 zur Darstellung von Codepunkten oberhalb der BMP also im Bereich U 10000 U 10FFFF verwendet und stehen deshalb nicht selbst als Codepunkt fur einzelne Zeichen zur Verfugung 66 Codepunkte 32 im Bereich U FDD0 U FDEF sowie je 2 am Ende jeder der 17 Ebenen also U FFFE U FFFF U 1FFFE U 1FFFF U 10FFFE U 10FFFF sind fur process internal uses reserviert und nicht fur die Verwendung als einzelne Zeichen vorgesehen Somit stehen fur die Zeichencodierung insgesamt 1 111 998 Codepunkte zur Verfugung Die Anzahl der tatsachlich zugewiesenen Codepunkte ist jedoch deutlich niedriger eine Ubersicht wie viele Codepunkte in den verschiedenen Versionen jeweils zugewiesen sind und wofur sie genutzt werden bieten die Tabellen D 2 und D 3 im Anhang D des Unicode Standards 42 PUA Private Use Area privat nutzbarer Bereich Bearbeiten Hauptartikel Private Use Area Spezielle Bereiche sind fur private Nutzung reserviert d h in diesen werden niemals Codepunkte fur in Unicode standardisierte Zeichen zugewiesen Diese konnen fur privat definierte Zeichen verwendet werden die zwischen den Erzeugern und Verwendern der Texte die sie enthalten individuell abgesprochen sein mussen Diese Bereiche sind in der BMP U E000 U F8FF in anderen Ebenen U F0000 U FFFFD und U 100000 U 10FFFDEs haben sich fur verschiedene Anwendungen spezielle Konventionen entwickelt die speziell fur den PUA Bereich der BMP Zeichenbelegungen vorgeben Zum einen finden sich hier haufig precomposed characters aus Grundzeichen und diakritischen Zeichen da in vielen speziell alteren Software Anwendungen nicht davon ausgegangen werden kann dass solche Zeichen gemass den Unicode Regeln bei Eingabe als Folge aus Grundzeichen und diakritischem Zeichen korrekt dargestellt werden Zum anderen finden sich Zeichen die nicht den Regeln fur eine Aufnahme in Unicode entsprechen oder deren Beantragung zur Aufnahme in Unicode aus anderen Grunden erfolglos war oder unterblieb So findet sich in vielen Fonts auf der Position U F000 ein Hersteller Logo Logos werden in Unicode prinzipiell nicht codiert Quellen fur PUA Zeichen sind z B MUFI Medieval Unicode Font Initiative 43 SIL PUA fur Sonderbuchstaben diverser Minderheitensprachen weltweit 44 Languagegeek fur indigene Sprachen Nordamerikas 45 ConScript 46 fur erfundene Schriftsysteme wie KlingonischKodierung Bearbeiten Neben dem eigentlichen Zeichensatz der jedem Zeichen eine Nummer zuordnet definiert Unicode auch mehrere Verfahren um Zeichen in Computern zu speichern Sie werden Unicode Transformation Format kurz UTF genannt Die verbreitetsten Varianten sind UTF 16 das die Codepunkte als Folgen von 16 Bit Zahlen kodiert Es wird als interne Zeichendarstellung von einigen Betriebssystemen Windows 47 OS X und Softwareentwicklungs Frameworks Java 48 NET 49 verwendet UTF 8 das die Codepunkte als Folgen von 8 Bit Zahlen Byte kodiert Es wird in Betriebssystemen GNU Linux Unix sowie in verschiedenen Internetdiensten E Mail WWW verwendet Neben den von Unicode standardisierten Verfahren gibt es noch Punycode das die Codepunkte als Zeichenfolgen kodiert die nur aus den Zeichen a bis z 0 bis 9 und dem Bindestrich bestehen Durch diese Kodierung konnen Domainnamen mit Nicht ASCII Zeichen verwendet werden Mit dem Standard Compression Scheme for Unicode existiert ein Kodierungsformat das die Texte gleichzeitig komprimiert Weitere Formate zur Kodierung von Unicode Zeichen sind u a CESU 8 und GB 18030 Normalisierung Bearbeiten Viele Zeichen die im Unicode Standard enthalten sind sind sogenannte Kompatibilitatszeichen die aus Unicode Sicht bereits mit anderen in Unicode kodierten Zeichen bzw Zeichensequenzen dargestellt werden konnen so z B die deutschen Umlaute die theoretisch mit einer Sequenz aus dem Basisbuchstaben und einem kombinierenden Trema horizontaler Doppelpunkt dargestellt werden konnen Bei der Unicode Normalisierung werden die Kompatibilitatszeichen automatisch durch die in Unicode vorgesehenen Sequenzen ersetzt Dies erleichtert die Verarbeitung von Unicode Texten erheblich da so nur eine mogliche Kombination fur ein bestimmtes Zeichen steht und nicht mehrere verschiedene Sortierung Bearbeiten Fur viele Schriftsysteme sind die Zeichen in Unicode nicht in einer Reihenfolge codiert die einer bei den Anwendern dieses Schriftsystems ublichen Sortierung entspricht Deshalb kann bei einer Sortierung z B in einer Datenbankanwendung ublicherweise nicht die Reihenfolge der Codepunkte verwendet werden Ausserdem sind die Sortierungen in vielen Schriftsystemen von komplexen kontextabhangigen Regelungen gepragt Hier definiert der Unicode Collation Algorithm wie Zeichenfolgen innerhalb eines bestimmten Schriftsystems oder auch schriftsystemubergreifend sortiert werden konnen In vielen Fallen ist jedoch die tatsachlich anzuwendende Reihenfolge von anderen Faktoren z B der verwendeten Sprache abhangig z B sortiert a im Deutschen anwendungsabhangig wie ae oder a im Schwedischen jedoch hinter z und a sodass der Unicode Sortierungsalgorithmus dann anzuwenden ist wenn die Sortierung nicht von spezielleren Rahmenbedingungen bestimmt wird Normierungsinstitutionen BearbeitenDas gemeinnutzige Unicode Konsortium wurde 1991 gegrundet und ist fur den Industriestandard Unicode verantwortlich Von der ISO Internationale Organisation fur Normung wird in Zusammenarbeit mit IEC die internationale Norm ISO 10646 herausgegeben Beide Institutionen arbeiten eng zusammen Seit 1993 sind Unicode und ISO 10646 bezuglich der Zeichenkodierung praktisch identisch Wahrend ISO 10646 lediglich die eigentliche Zeichenkodierung festlegt gehort zum Unicode ein umfassendes Regelwerk das unter anderem fur alle Zeichen weitere zur konkreten Anwendung wichtige Eigenschaften sogenannte Properties eindeutig festlegt wie Sortierreihenfolge Leserichtung und Regeln fur das Kombinieren von Zeichen 50 Seit einiger Zeit entspricht der Codeumfang von ISO 10646 exakt dem von Unicode da auch dort der Codebereich auf 17 Ebenen darstellbar mit 21 Bit beschrankt wurde 51 Kodierungskriterien BearbeitenGegenuber anderen Normen gibt es bei Unicode die Besonderheit dass einmal kodierte Zeichen niemals wieder entfernt werden um die Langlebigkeit digitaler Daten zu gewahrleisten 52 Sollte sich die Normierung eines Zeichens nachtraglich als Fehler erweisen wird allenfalls von seiner Verwendung abgeraten Daher bedarf die Aufnahme eines Zeichens in den Standard einer ausserst sorgfaltigen Prufung die sich uber Jahre hinziehen kann Im Unicode werden lediglich abstrakte Zeichen englisch characters kodiert nicht dagegen die grafische Darstellung Glyphen dieser Zeichen die von Schriftart zu Schriftart extrem unterschiedlich ausfallen kann beim lateinischen Alphabet etwa in Form der Antiqua Fraktur der irischen Schrift oder der verschiedenen Handschriften 53 Fur Glyphenvarianten deren Normierung als sinnvoll und notwendig nachgewiesen wird sind dabei allerdings vorsorglich 256 Variation Selectors reserviert die ggf dem eigentlichen Code nachgestellt werden konnen In vielen Schriftsystemen konnen Zeichen ausserdem je nach Position unterschiedliche Formen annehmen oder Ligaturen bilden Von Ausnahmen abgesehen z B Arabisch werden solche Varianten ebenfalls nicht in den Unicode Standard ubernommen sondern es wird eine sogenannte Smartfont Technik wie OpenType vorausgesetzt die die Formen angemessen ersetzen kann Andererseits werden identische Glyphen wenn sie verschiedene Bedeutungen haben auch mehrfach kodiert etwa die Glyphen A V E K M N O R T und H die mit zum Teil unterschiedlicher Bedeutung sowohl im lateinischen als auch im griechischen und kyrillischen Alphabet vorkommen In Grenzfallen wird hart um die Entscheidung gerungen ob es sich um Glyphenvarianten oder tatsachlich unterschiedliche einer eigenen Kodierung wurdige Zeichen Grapheme handelt Beispielsweise sind nicht wenige Fachleute der Meinung man konne das phonizische Alphabet als Glyphenvarianten des hebraischen Alphabets betrachten da der gesamte Zeichenvorrat des Phonizischen dort eindeutige Entsprechungen hat und auch beide Sprachen sehr eng miteinander verwandt sind Letztlich durchgesetzt hat sich allerdings schliesslich die Auffassung es handele sich um separate Zeichensysteme in der Unicode Terminologie scripts genannt 54 Anders verhalt es sich bei CJK Chinesisch Japanisch und Koreanisch Hier haben sich in den letzten Jahrhunderten die Formen vieler gleichbedeutender Schriftzeichen auseinanderentwickelt Dennoch teilen sich die sprachspezifischen Glyphen dieselben Codes im Unicode mit Ausnahme einiger Zeichen aus Kompatibilitatsgrunden In der Praxis werden hier uberwiegend sprachspezifische Schriftarten verwendet wodurch der Platzbedarf der Schriften zusammen hoch ist Die einheitliche Kodierung der CJK Schriftzeichen Han Unification war eine der wichtigsten und umfangreichsten Vorarbeiten fur die Entwicklung von Unicode Besonders in Japan ist sie durchaus umstritten Als der Grundstein fur Unicode gelegt wurde musste berucksichtigt werden dass bereits eine Vielzahl unterschiedlicher Kodierungen im Einsatz waren Unicode basierte Systeme sollten herkommlich kodierte Daten mit geringem Aufwand handhaben konnen Dazu wurde fur die unteren 256 Zeichen die weit verbreitete ISO 8859 1 Kodierung Latin1 ebenso wie die Kodierungsarten verschiedener nationaler Normen beibehalten z B TIS 620 fur Thailandisch fast identisch mit ISO 8859 11 oder ISCII fur indische Schriften die in der ursprunglichen Reihenfolge lediglich in hohere Bereiche verschoben wurden Jedes Zeichen massgeblicher uberkommener Kodierungen wurde in den Standard ubernommen auch wenn es den normalerweise angelegten Massstaben nicht gerecht wird Hierbei handelt es sich zu einem grossen Teil um Zeichen die aus zwei oder mehr Zeichen zusammengesetzt sind wie Buchstaben mit diakritischen Zeichen Im ubrigen verfugt auch heute noch ein grosser Teil der Software nicht uber die Moglichkeit Zeichen mit Diakritika ordentlich zusammenzusetzen Die exakte Festlegung von aquivalenten Kodierungen ist Teil des zum Unicode gehorenden umfangreichen Regelwerks Daruber hinaus gibt es viele Unicode Zeichen denen keine Glyphe zugeordnet ist und die trotzdem als characters behandelt werden So sind neben Steuerzeichen wie dem Tabulatorzeichen U 0009 dem Zeilenvorschub U 000A usw allein 19 verschiedene Zeichen explizit als Leerzeichen definiert sogar solche ohne Breite die u a fur Sprachen wie Thai die ohne Wortzwischenraum geschrieben werden als Worttrenner eingesetzt werden Fur bidirektionalen Text z B Arabisch mit Lateinisch sind sieben Formatierungszeichen kodiert Daruber hinaus gibt es weitere unsichtbare Zeichen die nur unter bestimmten Umstanden ausgewertet werden sollen etwa der Combining Grapheme Joiner Standardisierte Teilmenge von Unicode fur Europa BearbeitenDie DIN 91379 definiert eine Teilmenge der Unicode Buchstaben Sonderzeichen und Sequenzen von Grundbuchstaben und diakritischen Zeichen um eine korrekte Darstellung von Namen zu gewahrleisten und den Datenaustausch in Europa zu vereinfachen Sie unterstutzt alle Amtssprachen der Lander der Europaischen Union Islands Liechtensteins Norwegens und der Schweiz sowie die deutschen Minderheitensprachen Um die Transliteration von Namen in anderen Schriftsystemen in die lateinische Schrift gemass den einschlagigen ISO Normen zu ermoglichen werden alle notwendigen Kombinationen von Grundbuchstaben und diakritischen Zeichen bereitgestellt 55 Verwendung auf Computersystemen BearbeitenCodepunkt Eingabemethoden Bearbeiten Direkte Eingabe auf Betriebssystemebene Bearbeiten Microsoft Windows Bearbeiten Hauptartikel Alt Code Unter Windows ab Windows 2000 kann in einigen Programmen genauer in RichEdit Feldern der Code dezimal als Alt lt dezimales Unicode gt bei eingeschaltetem Num Lock auf dem numerischen Tastaturfeld eingegeben werden Dabei ist jedoch zu beachten dass Zeichennummern kleiner als 1000 um eine fuhrende Null zu erganzen sind z B Alt 0234 fur Codepoint 23410 e Diese Massnahme ist notwendig da die immer noch in Windows verfugbare Eingabemethode Alt lt ein bis dreistellige dezimale Zeichennummer ohne fuhrende Null gt bereits in MS DOS Zeiten genutzt wurde um die Zeichen der Codepage 850 vor allem bei fruheren MS DOS Versionen auch Codepage 437 einzugeben Eine weitere Eingabemethode setzt voraus dass in der Registrierungsdatenbank im Schlussel HKEY CURRENT USER Control Panel Input Method ein Eintrag Wert vom Typ REG SZ Zeichenfolge namens EnableHexNumpad existiert und ihm der Wert das Datum 1 zugewiesen ist Nach dem Editieren der Registry mussen Benutzer sich unter Windows 8 1 Windows 8 Windows 7 und Vista vom Windows Benutzerkonto ab und wieder anmelden bei fruheren Windows Versionen ist ein Neustart des Rechners notwendig damit die Anderungen in der Registry wirksam werden Danach konnen Unicode Zeichen wie folgt eingegeben werden Zuerst die linke Alt Taste drucken und halten dann auf dem Ziffernblock die Plus Taste drucken und wieder loslassen und anschliessend den hexadezimalen Code des Zeichens eingeben wobei fur Ziffern der Ziffernblock verwendet werden muss Abschliessend die Alt Taste wieder loslassen Zwar funktioniert diese Eingabemethode prinzipiell in jedem Eingabefeld jedes Windows Programms allerdings kann es vorkommen dass Schnellzugriffstasten fur Menufunktionen die Eingabe hexadezimaler Codepunkte verhindern Will man beispielsweise den Buchstaben O U 00D8 eingeben so fuhrt die Kombination Alt D in vielen Programmen dazu dass stattdessen das Menu Datei geoffnet wird Ein weiterer Nachteil besteht darin dass Windows hier die explizite Angabe der intern in Windows verwendeten UTF 16 Codierung statt der Unicode Kodierung selbst verlangt 56 und daher nur die Eingabe vierstelliger Codewerte zulasst fur Zeichen die oberhalb der BMP liegen und uber Codepunkte mit funf oder sechsstelliger Hexadezimaldarstellung verfugen sind stattdessen sogenannte Surrogate Pairs zu verwenden bei denen ein funf oder sechsstelliger Codepunkt auf zwei je vierstellige Ersatzcodepunkte abgebildet wird So ist etwa der Violinschlussel U 1D11E als hexadezimales UTF 16 Wertpaar D834 und DD1E einzugeben eine direkte Eingabe funf oder sechsstelliger Codepunkte ist hier also nicht moglich Apple macOS Bearbeiten Bei Apple macOS muss die Eingabe von Unicode Zeichen als Sonderfall zuerst uber die Systemeinstellungen Tastatur aktiviert werden 57 Hierzu ist im Dialog Registerkarte Eingabequellen uber das Plus Symbol die Unicode Hex Eingabe hinzuzufugen Diese befindet sich unter dem Oberpunkt Andere Danach kann der Unicode Wert bei gedruckter Option Taste mit dem vierstelligen Hex Code des Unicode Zeichens eingegeben werden sollte der Hexcode kleiner als vierstellig sein so mussen fuhrende Nullen eingegeben werden 57 Sollte der Hexcode funfstellig sein so ist keine unmittelbare Eingabe per Tastatur moglich und es muss uber den Dialog Zeichenubersicht ausgewahlt werden 58 Wenn die Unicode Hex Eingabe aktiviert ist dann liegt keine deutschsprachige Tastaturbelegung vor u a fur Umlaute so dass zwischen beiden Tastatur Modi gewechselt werden muss Der jeweilige Status der Tastaturbelegung lasst sich per Zusatzoption in der Menuzeile einblenden 58 Direkte Eingabe in spezieller Software Bearbeiten Microsoft Office und LibreOffice Bearbeiten Unter Microsoft Office ab Office XP kann Unicode auch hexadezimal eingegeben werden indem im Dokument lt Unicode gt oder U lt Unicode gt eingetippt wird und anschliessend die Tastenkombination Alt c bzw in Dialogfeldern Alt x gedruckt wird Diese Tastenkombination kann auch benutzt werden um den Code des vor dem Cursor stehenden Zeichens anzuzeigen 59 LibreOffice hat eine ahnliche Funktion mit der Tastenkombination Alt c oder Alt x 60 Eine alternative Moglichkeit welche auch in alteren Versionen funktioniert ist mit Einfugen Sonderzeichen eine Tabelle mit Unicode Zeichen aufzurufen darin mit dem Cursor ein gewunschtes auszusuchen und in den Text einzufugen Das Programm ermoglicht auch fur haufiger benotigte Zeichen Makros festzulegen die dann mit einer Tastenkombination abgerufen werden konnen Qt und GTK Bearbeiten GTK Qt und alle darauf basierenden Programme und Umgebungen wie beispielsweise die Desktop Umgebung Gnome unterstutzen die Eingabe uber die Kombination Strg Umschalttaste bzw in neueren Versionen Strg U bzw Strg Umschalttaste u Nach dem Drucken der Tasten erscheint ein unterstrichenes kleines u Danach kann der Unicode in hexadezimaler Form eingegeben werden und wird auch unterstrichen damit man erkennen kann was zum Unicode gehort Nach einem Druck der Leer oder Eingabetaste erscheint dann das entsprechende Zeichen In Desktop Umgebungen welche nicht auf GTK basieren beispielsweise KDE wird diese Funktionalitat durch Installation des IBus Frameworks ermoglicht Vim Bearbeiten Im Texteditor Vim konnen Unicode Zeichen mit Strg v gefolgt von der Taste u und dem Unicode in hexadezimaler Form eingegeben werden Auswahl uber Zeichentabellen Bearbeiten Seit Windows NT 4 0 ist das Programm charmap exe genannt Zeichentabelle in Windows integriert Mit diesem Programm ist uber eine grafische Benutzeroberflache moglich Unicode Zeichen einzufugen Ausserdem bietet es ein Eingabefeld fur den Hexadezimalcode Unter macOS steht unter Einfugen Sonderzeichen ebenfalls eine systemweite Zeichenpalette bereit Die freien Programme gucharmap fur Windows und Linux Unix und kcharselect fur Linux UNIX stellen den Unicode Zeichensatz auf dem Bildschirm dar und bieten zusatzliche Informationen zu den einzelnen Zeichen Codepunkt Angaben in Dokumenten Bearbeiten HTML und XML unterstutzen Unicode mit Zeichencodes die unabhangig vom eingestellten Zeichensatz das Unicode Zeichen darstellen Die Notation lautet amp 0000 fur dezimale Notation bzw amp x0000 fur hexadezimale Notation wobei das 0000 die Unicode Nummer des Zeichens darstellt Fur bestimmte Zeichen sind auch benannte Zeichen engl named entities definiert so z B stellt amp auml das a dar 61 das gilt allerdings nur fur HTML XML und das davon abgeleitete XHTML definieren benannte Notationen nur fur die Zeichen die bei normalem Gebrauch als Teile der Auszeichnungssprache interpretiert wurden also lt als amp lt gt als amp gt amp als amp amp und als amp quot Kritik BearbeitenUnicode wird vor allem aus den Reihen der Wissenschaftler und in ostasiatischen Landern kritisiert Einer der Kritikpunkte ist hierbei die Han Vereinheitlichung aus ostasiatischer Sicht werden bei diesem Vorgehen Schriftzeichen verschiedener nicht verwandter Sprachen vereinigt 62 Unter anderem wird kritisiert dass antike Texte in Unicode aufgrund dieser Vereinheitlichung ahnlicher CJK Schriftzeichen nicht originalgetreu wiedergegeben werden konnen 63 Aufgrund dessen wurden in Japan zahlreiche Alternativen zu Unicode entwickelt wie etwa der Mojikyō Standard Die Kodierung der thailandischen Schrift wird teilweise kritisiert weil sie anders als alle anderen Schriftsysteme in Unicode nicht auf logischer sondern visueller Reihenfolge basiert was unter anderem die Sortierung thailandischer Worter erheblich erschwert 62 Die Unicode Kodierung basiert auf dem thailandischen Standard TIS 620 der ebenfalls die visuelle Reihenfolge verwendet 64 Umgekehrt wird die Kodierung der indischen Schriften manchmal als zu kompliziert bezeichnet vor allem von Vertretern der Tamil Schrift Das Modell separater Konsonanten und Vokalzeichen welches Unicode vom indischen Standard ISCII ubernommen hat 65 wird von jenen abgelehnt die separate Codepunkte fur alle moglichen Konsonant Vokal Verbindungen bevorzugen 66 Die Regierung der Volksrepublik China machte einen ahnlichen Vorschlag die tibetische Schrift als Silbenfolgen anstatt als einzelne Konsonanten und Vokale zu kodieren 67 Schriftarten BearbeitenOb das entsprechende Unicode Zeichen auch tatsachlich am Bildschirm erscheint hangt davon ab ob die verwendete Schriftart eine Glyphe fur das gewunschte Zeichen also eine Grafik fur die gewunschte Zeichennummer enthalt Oftmals z B unter Windows wird falls die verwendete Schrift ein Zeichen nicht enthalt nach Moglichkeit ein Zeichen aus einer anderen Schrift eingefugt Mittlerweile hat der Coderaum von Unicode ISO einen Umfang angenommen mehr als 100 000 Schriftzeichen der sich nicht mehr vollstandig in einer Schriftdatei unterbringen lasst Die heute gangigsten Schriftdateiformate TrueType und OpenType konnen maximal 65 536 Glyphen enthalten Unicode ISO Konformitat einer Schrift bedeutet also nicht dass der komplette Zeichensatz enthalten ist sondern lediglich dass die darin enthaltenen Zeichen normgerecht kodiert sind In der Publikation decodeunicode die alle Zeichen vorstellt werden insgesamt 66 Fonts genannt aus denen die Zeichentabellen zusammengesetzt sind Auswahl an Unicode Schriftarten Bearbeiten Arial Unicode MS wird ab Microsoft Office XP ausgeliefert Unterstutzung nur bis Unicode 2 0 Enthalt 50 377 Glyphen 38 917 Zeichen in Version 1 01 Bitstream Cyberbit kostenlos bei nichtkommerzieller Nutzung 29 934 Zeichen in Version 2 0 beta Bitstream Vera frei serifenlose Version der Cyberbit Cardo kostenlos bei nichtkommerzieller Nutzung 2 882 Zeichen in Version 0 098 2004 ClearlyU frei die Pixel Schriftartenfamilie umfasst einen Satz von 12pt bis 100dpi proportionalen BDF Schriftarten mit vielen benotigten Zeichen von Unicode 9 538 Zeichen in Version 1 9 Code2000 Code2001 und Code2002 Drei freie Schriftarten welche fur die drei Planes 0 1 und 2 Zeichen bereitstellen Diese Schriftarten werden seit 2008 nicht mehr weiterentwickelt und sind deshalb weitgehend veraltet Davon ausgenommen ist Code2000 fur die Blocke Saurashtra Kayah Li Rejang und Cham Im ubrigen gibt es fur Code2000 und Code2001 zahlreich Alternativen fur Code2002 z B HanaMinA mit HanaMinB MingLiU ExtB SimSun ExtB und Sun ExtB DejaVu frei DejaVu Sans enthalt 3 471 Zeichen und 2 558 Unterschneidungspaare in Version 2 6 Doulos SIL frei enthalt das IPA 3 083 Zeichen in Version 4 014 Everson Mono Shareware umfasst einen Grossteil der Nicht CJK Buchstaben 9632 Zeichen in Macromedia Fontographer v7 0 0 12 Dezember 2014 Free UCS Outline Fonts frei FreeSerif umfasst 3 914 Zeichen in Version 1 52 MES 1 compliant Gentium Plus Weiterentwicklung von Gentium Version 1 510 vom August 2012 enthalt 5 586 Glyphen fur 2 520 Zeichen Download Seite bei SIL International HanaMinA und HanaMinB uberdecken zusammen die Ebene 2 U 2XXXX HanaMinA den Block Unicodeblock CJK Ideogramme Kompatibilitat Erganzung HanaMinB die Blocke Vereinheitlichte CJK Ideogramme Erweiterung B Vereinheitlichte CJK Ideogramme Erweiterung C und Vereinheitlichte CJK Ideogramme Erweiterung D Helvetica World lizenzierbar bei Linotype Junicode frei umfasst viele altertumliche Zeichen entworfen fur Historiker 1 435 Zeichen in Version 0 6 3 Linux Libertine frei umfasst westliche Zeichensatze Latein Kyrillisch Griechisch Hebraisch u a mit archaischen Sonderzeichen Ligaturen mediavale proportionale und romische Ziffern enthalt mehr als 2000 Zeichen in Version 2 6 0 2007 Lucida Grande Unicode Schriftart enthalten in macOS umfasst 1 266 Zeichen Lucida Sans Unicode enthalten in aktuelleren Microsoft Windows Versionen unterstutzt nur ISO 8859 x Buchstaben 1 776 Zeichen in Version 2 00 New Gulim wird ausgeliefert mit Microsoft Office 2000 Grossteil von CJK Buchstaben 49 284 Zeichen in Version 3 10 Noto ist eine Schriftfamilie die von Google und Adobe entwickelt und unter der freien Apache Lizenz angeboten wird Obwohl ein noch laufendes Projekt sind bereits die meisten Unicode kodierten modernen und historischen Schriften abgedeckt Download Seite bei google com Sun ExtA uberdeckt weite Teile der Ebene 0 darunter 20924 der 20941 Zeichen im Unicodeblock Vereinheitlichte CJK Ideogramme und alle 6582 Zeichen im Unicodeblock Vereinheitlichte CJK Ideogramme Erweiterung A Sun ExtB uberdeckt die Ebene 2 U 2XXXX weitgehend Unicodeblock CJK Ideogramme Kompatibilitat Erganzung Unicodeblock Vereinheitlichte CJK Ideogramme Erweiterung B und Unicodeblock Vereinheitlichte CJK Ideogramme Erweiterung C vollstandig vom Unicodeblock Vereinheitlichte CJK Ideogramme Erweiterung D 59 der 222 Zeichen Ausserdem noch den Unicodeblock Tai Xuan Jing Symbole TITUS Cyberbit Basic frei aktualisierte Version der Cyberbit 9 779 Zeichen in Version 3 0 2000 Y OzFontN frei enthalt viele japanische CJK Buchstaben umfasst wenig SMP Zeichen 59 678 Zeichen in Version 9 13 Ersatzschriftarten Bearbeiten Eine Ersatzschriftart dient der Ersatzdarstellung fur Zeichen fur die kein Font mit korrekter Darstellung zur Verfugung steht Hier gibt z B folgende Fonts Unicode BMP Fallback SIL eine von SIL International erstellte Ersatzschriftart welche alle in Version 6 1 definierten Zeichen der Ebene Null Basic Multilingual Plane als Quadrat mit einbeschriebenem Hex Code darstellt Zu finden unter sil org LastResort designt von Michael Everson eine in Mac OS 8 5 und hoher enthaltene Ersatzschriftart welche die erste Glyphe eines Blocks fur alle Zeichen des Blocks verwendet Frei herunterladbar von unicode org Siehe auch Bearbeiten Portal Unicode Ubersicht zu Wikipedia Inhalten zum Thema Unicode Liste der Unicodeblocke GBK Zeichensatz GB 18030 Unicode BugLiteratur BearbeitenJohannes Bergerhausen Siri Poarangan decodeunicode Die Schriftzeichen der Welt Hermann Schmidt Mainz 2011 ISBN 978 3 87439 813 8 Alle 109 242 Unicode Zeichen in einem Buch Julie D Allen The Unicode Standard version 6 0 The Unicode Consortium The Unicode Consortium Mountain View 2011 ISBN 978 1 936213 01 6 Online Version Richard Gillam Unicode Demystified a practical programmer s guide to the encoding standard Addison Wesley Boston 2003 ISBN 0 201 70052 2 Weblinks Bearbeiten Wiktionary Unicode Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Commons Unicode Unicode Zeichen als SVG Offizielle Website des Unicode Consortium englisch Tabellen der Zeichen mit ihrem Aussehen englisch alle Zeichen in einer Tabelle mit Namen und Eigenschaften der Zeichen text csv Der universale Code Unicode SELFHTML Imperia Unicode und Multi Language Howto Memento vom 28 Oktober 2014 im Internet Archive Allgemeinverstandliche deutschsprachige Einfuhrung in Unicode UTF 8 and Unicode FAQ for Unix Linux von Markus Kuhn englisch UniSearcher Suchen von Unicodes Shapecatcher grafische Unicode Zeichensuche englisch The World s Writing Systems alle 294 bekannten Schriftsysteme mit je einer Referenz Glyphe darunter die 131 noch nicht in Unicode kodierten Ermitteln des Zeichennamens und der Codeposition durch Eingabe des Zeichens Unicode The Movie Alle 109 242 Unicode Zeichen in einem Film Unicode Fontviewer Freeware Alle Unicode Zeichen Emojis und Schriftarten in Windows 10 Ausfuhrliche Auflistung aller Unicode Eingabemethoden fur Windows englisch ausfuhrlicher Blog Artikel zum Minimalverstandnis uber Unicode englisch Golo Roden Was man uber Unicode wissen sollte In Heise online 28 Januar 2021 Heise Developer ISO IEC 10646Einzelnachweise Bearbeiten Latest Version In Unicode Technical Site Abgerufen am 30 Juli 2023 Dieser Standard ist identisch zu ECMA 35 PDF 304 kB einem Standard von Ecma International Internationalisation and the Web Joseph D Becker Unicode 88 PDF 2 9 MB 29 August 1988 S 5 History of Unicode Release and Publication Dates Chronology of Unicode Version 1 0 Unicode in Japan Guide to a technical and psychological struggle Memento vom 27 Juni 2009 im Internet Archive UnicodeData txt 1 0 0 UnicodeData txt 1 0 1 UnicodeData txt 1 1 a b What s new in Unicode 5 1 BabelStone UnicodeData txt 2 0 UTR 8 The Unicode Standard Version 2 1 Unicode 3 0 0 UAX 27 Unicode 3 1 UTR 28 Unicode 3 2 Unicode 4 0 0 Unicode 4 1 0 Unicode 5 0 0 Unicode 5 1 0 Unicode 5 2 0 Unicode 6 0 0 Unicode 6 1 0 Unicode 6 2 0 Unicode 6 3 0 Unicode 7 0 0 Unicode 8 0 0 Unicode 9 0 0 In unicode org Abgerufen am 22 Juni 2016 Unicode 10 0 0 In unicode org Abgerufen am 20 April 2017 Unicode 11 0 0 In unicode org Abgerufen am 21 Juli 2018 Unicode 12 0 0 In unicode org Abgerufen am 28 Februar 2019 Unicode 12 1 0 In unicode org Abgerufen am 7 Mai 2019 Unicode 13 0 0 In unicode org Abgerufen am 25 April 2021 Unicode 14 0 0 In unicode org Abgerufen am 16 September 2021 Unicode 15 0 0 In unicode org Abgerufen am 28 November 2022 What is Unicode a b c d e The Unicode Standard S 33 Roadmap to the SIP a b The Unicode Standard S 34 Unicode 6 3 Kapitel 2 8 Seite 34 erster Absatz da die Core Spezifikation fur Version 6 3 nicht verandert und auch nicht neu veroffentlicht wurde gelten die Dateien von Version 6 2 fur 6 3 unverandert weiter The Unicode Standard S 21f Unicode 6 3 Anhang D Seite 602 Tabellen D 2 und D 3 da die Core Spezifikation fur Version 6 3 nicht verandert und auch nicht neu veroffentlicht wurde gelten die Dateien von Version 6 2 fur 6 3 unverandert weiter Medieval Unicode Font Initiative Abgerufen am 21 August 2012 Peter Constable and Lorna A Priest SIL Corporate PUA Assignments 17 April 2012 abgerufen am 21 August 2012 Chris Harvey Languagegeek Fonts 29 Juni 2012 abgerufen am 21 August 2012 ConScript Unicode Registry Abgerufen am 21 August 2012 Character Sets Java Internationalization FAQ Unicode in the NET Framework FAQ Unicode and ISO 10646 The Unicode Standard S 573 Unicode Character Encoding Stability Policy Unicode Technical Report 17 Character Encoding Model Response to the revised Final proposal for encoding the Phoenician script in the UCS L2 04 141R2 Memento vom 8 September 2009 im Internet Archive DIN 91379 2022 08 Zeichen und definierte Zeichensequenzen in Unicode fur die elektronische Verarbeitung von Namen und den Datenaustausch in Europa mit CD ROM Beuth Verlag August 2022 abgerufen am 16 August 2022 kostenpflichtig unicode org a b Jan Mahn Sonderbare Zeichen Sonderzeichen unter Windows Linux macOS In c t Nr 20 2019 S 126 127 heise de abgerufen am 28 Januar 2021 a b Unicode unter Mac OS X apfelwiki de abgerufen am 27 April 2013 Tastenkombinationen fur internationale Zeichen Allgemeine Tastenkombinationen in LibreOffice Abgerufen am 20 September 2021 Character entity references in HTML 4 w3 org a b Suzanne Topping The secret life of Unicode IBM DeveloperWorks 1 Mai 2001 archiviert vom Original am 14 November 2007 abgerufen am 7 November 2015 englisch Otfried Cheong Han Unification in Unicode 12 Oktober 1999 archiviert vom Original am 28 Marz 2010 abgerufen am 7 November 2015 englisch The Unicode Standard S 350 The Unicode Standard S 268 Krishnamurthy Elangovan P Chellappan Kanithamizh Sangam Evolution of the 16 Bit Encoding Scheme for Tamil Archiviert vom Original am 16 August 2012 abgerufen am 22 November 2015 englisch Precomposed Tibetan Part 1 BrdaRten BabelStone Unicode Ubersicht Unicodeblocke Portal Unicode Codierte Reihenfolge Ebene 0Basis Lateinisch Lateinisch 1 Erganzung Lateinisch erw A Lateinisch erw B IPA Erweiterungen Spacing Modifier Letters Kombinierende diakritische Zeichen Griechisch und Koptisch Kyrillisch Kyrillisch Erganzung Armenisch Hebraisch Arabisch Syrisch Arabisch Erganzung Thaana N Ko Samaritanisch Mandaisch Syrisch Erganzung Arabisch erw B Arabisch erw A Devanagari Bengalisch Gurmukhi Gujarati Oriya Tamilisch Telugu Kannada Malayalam Singhalesisch Thailandisch Laotisch Tibetisch Birmanisch Georgisch Hangeul Jamo Athiopisch Athiopisch Zusatz Cherokee Vereinh Silbenz kanad Ureinw Ogam Runen Tagalog Hanunoo Buid Tagbanuwa Khmer Mongolisch Vereinh Silbenz kanad Ureinw erw Limbu Tai Le Neu Tai Lue Khmer Symbole Buginesisch Lanna Kombinierende diakritische Zeichen erw Balinesisch Sundanesisch Batak Lepcha Ol Chiki Kyrillisch erw C Georgisch erweitert Sundanesisch Erganzung Vedische Erweiterungen Phonetische Erweiterungen Phonetische Erweiterungen Erganzung Kombinierende diakritische Zeichen Erganzung Lateinisch weiterer Zusatz Griechisch Zusatz Allgemeine Interpunktion Hoch und tiefgestellte Zeichen Wahrungszeichen Kombinierende diakritische Zeichen fur Symbole Buchstabenahnliche Symbole Zahlzeichen Pfeile Mathematische Operatoren Verschiedene technische Zeichen Symbole fur Steuerzeichen Optische Zeichenerkennung Umschlossene alphanum Zeichen Rahmenzeichnung Blockelemente Geometrische Formen Verschiedene Symbole Dingbats Verschiedene mathem Symbole A Zusatzliche Pfeile A Braille Zeichen Zusatzliche Pfeile B Verschiedene mathem Symbole B Zusatzliche mathem Operatoren Verschiedene Symbole und Pfeile Glagolitisch Lateinisch erw C Koptisch Georgisch Erganzung Tifinagh Athiopisch erweitert Kyrillisch erw A Zusatzliche Interpunktion CJK Radikale Erganzung Kangxi Radikale Ideographische Beschreibungszeichen CJK Symbole und Interpunktion Hiragana Katakana Bopomofo Hangeul Jamo Kompatibilitat Kanbun Bopomofo erweitert CJK Striche Katakana Phonetische Erweiterungen Umschlossene CJK Zeichen und Monate CJK Kompatibilitat Vereinh CJK Ideogramme Erw A I Ging Hexagramme Vereinh CJK Ideogramme Yi Silbenzeichen Yi Radikale Lisu Vai Kyrillisch erw B Bamum Modifizierende Tonzeichen Lateinisch erw D Syloti Nagri Allgemeine indische Ziffern Phagspa Saurashtra Devanagari erw Kayah Li Rejang Hangeul Jamo erw A Javanisch Birmanisch erw B Cham Birmanisch erw A Tai Viet Meitei Mayek Erw Athiopisch erw A Lateinisch erw E Cherokee Zusatz Meitei Mayek Hangeul Silbenzeichen Hangeul Jamo erw B Private Use Zone CJK Ideogramme Kompatibilitat Alphabetische Prasentationsformen Arabische Prasentationsformen A Variantenselektoren Vertikale Formen Kombinierende halbe diakritische Zeichen CJK Kompatibilitatsformen Kleine Formvarianten Arabische Prasentationsformen B Halbbreite und vollbreite Formen Spezielles Ebene 1 Linear B Silbenzeichen Linear B Ideogramme Agaische Zahlzeichen Altgriechische Zahlzeichen Alte Symbole Diskos von Phaistos Lykisch Karisch Koptische Zahlzeichen Altitalisch Gotisch Altpermisch Ugaritisch Altpersisch Mormonen Alphabet Shaw Alphabet Osmaniya Osage Albanisch Alwanisch Vithkuq Alphabet Linear A Lateinisch erw F Kyprisch Aramaisch Palmyrenisch Nabataisch Hatra Schrift Phonizisch Lydisch Meroitische Hieroglyphen Meroitisch demotisch Kharoshthi Altsudarabisch Altnordarabisch Manichaisch Avestisch Parthisch Inschriften Pahlavi Psalter Pahlavi Altturkisch Altungarisch Hanifi Rohingya Rumi Ziffern Jesidisch Arabisch erw C Altsogdisch Sogdisch Altuigurisch Choresmisch Elymaisch Brahmi Kaithi Sorang Sompeng Chakma Mahajani Sharada Singhalesische Zahlzeichen Khojki Multanisch Khudabadi Grantha Newa Tirhuta Siddham Modi Mongolisch Erganzung Takri Ahom Dogra Varang Kshiti Dives Akuru Nandinagari Dsanabadsar Quadratschrift Sojombo Vereinh Silbenz kanad Ureinw erw A Pau Cin Hau Devanagari erw A Bhaiksuki Marchen Masaram Gondi Gunjala Gondi Makassar Kawi Lisu Erganzung Tamilisch Erganzung Keilschrift Keilschrift Zahlzeichen und Interpunktion Fruhe Keilschrift Kypro minoisch Agyptische Hieroglyphen Agypt Hieroglyphen Steuerzeichen Anatolische Hieroglyphen Bamum Erganzung Mro Tangsa Bassa Vah Pahawh Hmong Medefaidrin Pollard Schrift Ideographische Symbole und Interpunktion Xixia Xixia Komponenten Kleine Kitan Schrift Xixia Erganzung Kana erw B Kana Erganzung Kana erw A Kleine Kana erweitert Frauenschrift Duploye Kurzschrift Kurzschrift Steuerzeichen Snamennyj Notenschrift Byzantinische Noten Notenschrift Altgriechische Noten Kaktovik Zahlzeichen Maya Zahlzeichen Tai Xuan Jing Symbole Zahlstabziffern Mathem alphanum Symbole SignWriting Lateinisch erw G Glagolitisch Erganzung Kyrillisch erw D Nyiakeng Puachue Hmong Toto Wancho Nag Mundari Athiopisch erw B Mende Schrift Adlam Indische Siyaq Zahlzeichen Osmanische Siyaq Zahlzeichen Arab mathem alphanum Symbole Mahjonggsteine Dominosteine Spielkarten Zusatzliche umschlossene alphanum Zeichen Zusatzliche umschlossene CJK Zeichen Verschiedene piktografische Symbole Smileys Ziersymbole Verkehrs und Kartensymbole Alchemistische Symbole Geometrische Formen erw Zusatzliche Pfeile C Zusatzliche piktografische Symbole Schachsymbole Piktografische Symbole erw A Symbole fur Retrocomputer Ebenen 2 und 3 Vereinh CJK Ideogramme Erw B Vereinh CJK Ideogramme Erw C Vereinh CJK Ideogramme Erw D Vereinh CJK Ideogramme Erw E Vereinh CJK Ideogramme Erw F CJK Ideogramme Kompatibilitat Erganzung Vereinh CJK Ideogramme Erw G Vereinh CJK Ideogramme Erw H Ebenen 14 bis 16 Tags Variantenselektoren Erganzung Zusatzlicher Privatnutzungsbereich A Zusatzlicher Privatnutzungsbereich B Alphabetische Reihenfolge Adlam Agaische Zahlzeichen Agyptische Hieroglyphen Agypt Hieroglyphen Steuerzeichen Ahom Albanisch Alchemistische Symbole Allgemeine indische Ziffern Allgemeine Interpunktion Alphabetische Prasentationsformen Alte Symbole Altgriechische Noten Altgriechische Zahlzeichen Altitalisch Altnordarabisch Altpermisch Altpersisch Altsogdisch Altsudarabisch Altturkisch Altuigurisch Altungarisch Alwanisch Anatolische Hieroglyphen Arabisch Arabisch Erganzung Arabisch erw A Arabisch erw B Arabisch erw C Arab mathem alphanum Symbole Arabische Prasentationsformen A Arabische Prasentationsformen B Aramaisch Armenisch Athiopisch Athiopisch erweitert Athiopisch erw A Athiopisch erw B Athiopisch Zusatz Avestisch Balinesisch Bamum Bamum Erganzung Basis Lateinisch Bassa Vah Batak Bengalisch Bhaiksuki Birmanisch Birmanisch erw A Birmanisch erw B Blockelemente Bopomofo Bopomofo erweitert Brahmi Braille Zeichen Buchstabenahnliche Symbole Buginesisch Buid Byzantinische Noten Chakma Cham Cherokee Cherokee Zusatz Choresmisch CJK Ideogramme Kompatibilitat CJK Ideogramme Kompatibilitat Erganzung CJK Kompatibilitat CJK Kompatibilitatsformen CJK Radikale Erganzung CJK Striche CJK Symbole und Interpunktion Devanagari Devanagari erw Devanagari erw A Dingbats Diskos von Phaistos Dives Akuru Dogra Dominosteine Dsanabadsar Quadratschrift Duploye Kurzschrift Elymaisch Frauenschrift Fruhe Keilschrift Geometrische Formen Geometrische Formen erw Georgisch Georgisch Erganzung Georgisch erweitert Glagolitisch Glagolitisch Erganzung Gotisch Grantha Griechisch und Koptisch Griechisch Zusatz Gujarati Gunjala Gondi Gurmukhi Halbbreite und vollbreite Formen Hangeul Jamo Hangeul Jamo erw A Hangeul Jamo erw B Hangeul Jamo Kompatibilitat Hangeul Silbenzeichen Hanifi Rohingya Hanunoo Hatra Schrift Hebraisch Hiragana Hoch und tiefgestellte Zeichen Ideographische Beschreibungszeichen Ideographische Symbole und Interpunktion I Ging Hexagramme Indische Siyaq Zahlzeichen Inschriften Pahlavi IPA Erweiterungen Javanisch Jesidisch Kaithi Kaktovik Zahlzeichen Kana Erganzung Kana erw A Kana erw B Kanbun Kangxi Radikale Kannada Karisch Katakana Katakana Phonetische Erweiterungen Kawi Kayah Li Keilschrift Keilschrift Zahlzeichen und Interpunktion Kharoshthi Khmer Khmer Symbole Khojki Khudabadi Kleine Formvarianten Kleine Kana erweitert Kleine Kitan Schrift Kombinierende diakritische Zeichen fur Symbole Kombinierende diakritische Zeichen Kombinierende diakritische Zeichen Erganzung Kombinierende diakritische Zeichen erw Kombinierende halbe diakritische Zeichen Koptisch Koptische Zahlzeichen Kurzschrift Steuerzeichen Kyprisch Kypro minoisch Kyrillisch Kyrillisch Erganzung Kyrillisch erw A Kyrillisch erw B Kyrillisch erw C Kyrillisch erw D Lanna Laotisch Lateinisch erw A Lateinisch erw B Lateinisch erw C Lateinisch erw D Lateinisch erw E Lateinisch erw F Lateinisch erw G Lateinisch weiterer Zusatz Lateinisch 1 Erganzung Lepcha Limbu Linear A Linear B Ideogramme Linear B Silbenzeichen Lisu Lisu Erganzung Lydisch Lykisch Mahajani Mahjonggsteine Makassar Malayalam Mandaisch Manichaisch Marchen Masaram Gondi Mathem alphanum Symbole Mathematische Operatoren Maya Zahlzeichen Medefaidrin Meitei Mayek Meitei Mayek Erw Mende Schrift Meroitisch demotisch Meroitische Hieroglyphen Modi Modifizierende Tonzeichen Mongolisch Mongolisch Erganzung Mormonen Alphabet Mro Multanisch Nabataisch Nag Mundari Nandinagari Neu Tai Lue Newa N Ko Notenschrift Nyiakeng Puachue Hmong Ogam Ol Chiki Optische Zeichenerkennung Oriya Osage Osmanische Siyaq Zahlzeichen Osmaniya Pahawh Hmong Palmyrenisch Parthisch Pau Cin Hau Pfeile Phagspa Phonetische Erweiterungen Phonetische Erweiterungen Erganzung Phonizisch Piktografische Symbole erw A Pollard Schrift Privatnutzungsbereich Zusatzlicher Privatnutzungsbereich A Zusatzlicher Privatnutzungsbereich B Psalter Pahlavi Rahmenzeichnung Rejang Rumi Ziffern Runen Samaritanisch Saurashtra Schachsymbole Sharada Shaw Alphabet Siddham Singhalesisch Singhalesische Zahlzeichen Smileys Snamennyj Notenschrift Sogdisch Sojombo Sorang Sompeng Spacing Modifier Letters Spezielles Spielkarten Sundanesisch Sundanesisch Erganzung SignWriting Syloti Nagri Symbole fur Retrocomputer Symbole fur Steuerzeichen Syrisch Syrisch Erganzung Tagalog Tagbanuwa Tags Tai Le Tai Viet Tai Xuan Jing Symbole Takri Tamilisch Tamilisch Erganzung Tangsa Telugu Thaana Thailandisch Tibetisch Tifinagh Tirhuta Toto Ugaritisch Umschlossene alphanum Zeichen Umschlossene CJK Zeichen und Monate Vai Varang Kshiti Variantenselektoren Variantenselektoren Erganzung Vedische Erweiterungen Vereinh CJK Ideogramme Vereinh CJK Ideogramme Erw A Vereinh CJK Ideogramme Erw B Vereinh CJK Ideogramme Erw C Vereinh CJK Ideogramme Erw D Vereinh CJK Ideogramme Erw E Vereinh CJK Ideogramme Erw F Vereinh CJK Ideogramme Erw G Vereinh CJK Ideogramme Erw H Vereinh Silbenz kanad Ureinw Vereinh Silbenz kanad Ureinw erw Vereinh Silbenz kanad Ureinw erw A Verkehrs und Kartensymbole Verschiedene mathem Symbole A Verschiedene mathem Symbole B Verschiedene piktografische Symbole Verschiedene Symbole und Pfeile Verschiedene Symbole Verschiedene technische Zeichen Vertikale Formen Vithkuq Alphabet Wahrungszeichen Wancho Xixia Xixia Erganzung Xixia Komponenten Yi Radikale Yi Silbenzeichen Zahlstabziffern Zahlzeichen Ziersymbole Zusatzliche Interpunktion Zusatzliche mathem Operatoren Zusatzliche Pfeile A Zusatzliche Pfeile B Zusatzliche Pfeile C Zusatzliche piktografische Symbole Zusatzliche umschlossene alphanum Zeichen Zusatzliche umschlossene CJK Zeichen Normdaten Sachbegriff GND 4343497 6 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Unicode amp oldid 236146380