www.wikidata.de-de.nina.az
Steuerzeichen im Unicode sind selbst nicht darstellbare Zeichen beeinflussen aber die Darstellung und Formatierung der anderen Zeichen Da Unicode eine Vielzahl verschiedener Schriftsysteme kodiert die bestimmte Anforderungen an eine optimale Darstellung stellen ist es in einigen Fallen notwendig durch solch unsichtbare Steuerzeichen die Darstellungsalgorithmen zu beeinflussen Mit Steuerzeichen kann zum Beispiel die Darstellung von Ligaturen beeinflusst werden Je nachdem ob ein Programm diese automatisch vorsieht oder nicht kann es in einigen Fallen notwendig werden mittels bestimmter Steuerzeichen eine Verbindung zweier Buchstaben zu einer Ligatur zu fordern oder eine solche zu verhindern Inhaltsverzeichnis 1 Allgemeine Eigenschaften von Steuerzeichen 2 Steuerzeichen Bereiche C0 und C1 3 Umbruch 4 Schreibschrift und Ligaturen 5 Combining Grapheme Joiner 6 Bidirektionale Texte 7 Veraltete Formatierungszeichen 8 Variantenselektoren 9 Gesperrte Codepunkte 10 Bytereihenfolgezeichen 11 Anmerkungszeichen 12 Veraltete Tags 13 Literatur 14 EinzelnachweiseAllgemeine Eigenschaften von Steuerzeichen BearbeitenDie meisten Steuerzeichen sind durch die allgemeine Kategorie als solche gekennzeichnet wobei es einige Ausnahmen gibt Hier steht der Wert Cc fur allgemeine Cf fur Formatierungs Steuerzeichen Viele Steuerzeichen sind ausserdem als default ignorable gekennzeichnet dies bedeutet dass Programme die diese Zeichen nicht korrekt verarbeiten konnen sie nicht beachten sollten Steuerzeichen Bereiche C0 und C1 BearbeitenAls C0 Bereich c null gelten die Zeichen von U 0000 bis U 001F dezimal 0 31 und U 007F dezimal 127 als C1 Bereich gelten die von U 0080 bis U 009F dezimal 128 159 Als Obermenge von ASCII und Latin 1 ubernimmt Unicode die C0 und C1 Steuerzeichen dieser Standards ohne sie mit einer eigenen Interpretation zu belegen Lediglich einige dieser Zeichen haben eine im Unicode Standard definierte Funktion zu diesen zahlen insbesondere die Zeichen zum Zeilenumbruch Umbruch BearbeitenFur den Zeilenumbruch und die Aufteilung eines Textes in einzelne Zeichen Worter oder Satze gibt es den Unicode Zeilenumbruch Algorithmus und eine Reihe von Segmentierungsalgorithmen Neben den klassischen Steuerzeichen zum erzwungenen Zeilenende gibt es auch Steuerzeichen die verwendet werden konnen um diesen Algorithmen zu signalisieren an welchen Stellen im Text kein Umbruch erfolgen darf und an welchen er zusatzlich moglich sein soll Um einen Umbruch zu verhindern wird meist der Wortverbinder U 2060 genutzt sofern es nicht wie beim Leerzeichen eine eigene nicht umbrechende Variante gibt Vor der Einfuhrung dieses Steuerzeichens in Unicode 3 2 wurde das breitenlose nichtumbrechende Leerzeichen U FEFF dazu verwendet das aber heute hauptsachlich in seiner Funktion als Bytereihenfolgezeichen genutzt wird Um umgekehrt einen Umbruch zu erlauben wird das breitenlose Leerzeichen U 200B oder der bedingte Trennstrich U 00AD verwendet Fur Zeilen und Absatzende existieren in Unicode ausserdem die Zeichen Zeilentrenner U 2028 und Absatztrenner U 2029 die im Gegensatz zu den meisten anderen Steuerzeichen in ihrer allgemeinen Kategorie als Leerraum gekennzeichnet sind Schreibschrift und Ligaturen BearbeitenIn einigen Schriftsystemen wie dem Arabischen werden die Zeichen innerhalb eines Wortes mit den Nachbarzeichen verbunden was bedeutet das ein Zeichen je nach Stellung ein unterschiedliches Aussehen haben kann Ebenso ist es moglich dass zwei benachbarte Zeichen durch eine einzelne Ligatur dieser Zeichen dargestellt werden soll Um in solchen Fallen die Verbindung zweier benachbarter Zeichen zu erzwingen oder zu verhindern definiert der Unicode Standard Steuerzeichen die die entsprechenden Algorithmen beeinflussen Dies sind der Bindehemmer U 200C und der breitenlose Verbinder U 200D Combining Grapheme Joiner BearbeitenFormal kein Steuerzeichen sondern ein kombinierendes Zeichen ist der Combining Grapheme Joiner CGJ U 034F das verwendet werden kann um die Darstellung diakritischer Zeichen und die Sortierung von Digraphen mittels des Unicode Collation Algorithm zu beeinflussen Bidirektionale Texte BearbeitenFur bidirektionale Texte existieren eine Reihe spezieller Steuerzeichen die eine bestimmte Schreibrichtung erzwingen und so auf die Darstellung Einfluss nehmen konnen Veraltete Formatierungszeichen BearbeitenEinige Steuerzeichen sind als deprecated markiert von ihrer Verwendung wird abgeraten Dies sind die folgenden Zeichen U 206A symmetrische Spiegelung verhindern und U 206B symmetrische Spiegelung aktivieren deaktivieren bzw aktivieren das normale Verhalten dass spiegelbare Zeichen etwa Klammern in linkslaufigen Text bei der Anwendung des Unicode Bidi Algorithmus gespiegelt dargestellt werden U 206C arabische Formgebung verhindern und U 206D arabische Formgebung aktivieren deaktivieren bzw aktivieren das normalerweise deaktivierte Verhalten arabische Kompatibilitatszeichen fur bestimmte Zeichenformen durch die im jeweiligen Kontext eigentlich korrekte Form zu ersetzen U 206E nationale Ziffernformen und U 206F nominale Ziffernformen aktivieren bzw deaktivieren eine sonst nicht durchgefuhrte Ersetzung der gewohnlichen Ziffern 0 bis 9 bei der Ausgabe durch die in der Sprache des Benutzers ublichen arabisch indisch etc Variantenselektoren BearbeitenVariantenselektoren bieten die Moglichkeit auch in reinem Text ohne Metainformationen zur gewunschten Schriftart bestimmte Glyphenvarianten fur die Ausgabe zu verwenden Formal sind Variantenselektoren kombinierende Zeichen folgen also direkt auf das Zeichen fur das sie eine bestimmte Formvariante auswahlen Es sind 259 verschiedene solche Variantenselektoren definiert U 180B bis U 180D sind fur die Verwendung mit mongolischen Zeichen vorgesehen U FE00 bis U FE0F und U E0100 bis U E01EF fur allgemeine Zeichen Welche Anderungen die Variantenselektoren genau hervorrufen wird in zwei Dokumenten spezifiziert in der Unicode Ideographic Variation Database 1 und der Datei StandardizedVariants txt 2 Beispielsweise legt der Variantenselektor U FE00 wenn er dem Vereinigungszeichen U 222A folgt fest dass dieses mit Serifen dargestellt werden soll Gesperrte Codepunkte BearbeitenEinige Codepunkte sind dauerhaft gesperrt und werden niemals mit einem Zeichen belegt Neben den beiden letzten Codepunkten einer jeden Ebene U FFFE U FFFF U 1FFFE U 1FFFF U 10FFFE U 10FFFF sind dies die Zeichen im Bereich U FDD0 bis U FDEF Die Bytefolge FFFE muss als Bytereihenfolgezeichen U FEFF frei bleiben um die Bytefolge des Datenstroms erkennen zu konnen und die Bytefolge FFFF alle 16 Bit gesetzt ist bei diversen Datenubertragungen nicht von einem fehlenden Signal zu unterscheiden Die anderen Codepunkte entsprechen Bitfolgen welche fur codeinterne Zwecke benotigt werden Bei diesen Codepunkten handelt es sich also nicht um Steuerzeichen im engeren Sinn und Programme konnen diese Codepunkte intern beliebig verwenden wie private aber zur Ubertragung und Darstellung von Zeichen sind sie nicht geeignet Sie sind nicht zu verwechseln mit gegenwartig unbelegten Codepunkten denen jedoch in spateren Versionen ein Zeichen zugewiesen werden konnte Bytereihenfolgezeichen BearbeitenNeben seiner ursprunglichen Bedeutung fur den Umbruch hat das Zeichen U FEFF inzwischen die Aufgabe als Bytereihenfolgezeichen Byte Order Mark die Byte Reihenfolge eines Textes anzugeben und eine automatische Bestimmung der Codierung zu erleichtern Anmerkungszeichen BearbeitenDie Zeichen im Bereich von U FFF9 bis U FFFB aus dem Unicodeblock Spezielles ermoglichen es Anmerkungen in den Text einzufugen die meist uber dem annotierten Text dargestellt werden Sie ermoglichen es etwa Furigana Zeichen als solche zu kennzeichnen Dabei leitet U FFF9 Interlinearer Anmerkungsanker den annotierten Text ein U FFFA Interlinearer Anmerkungsteiler trennt diesen von der ihm folgenden Anmerkung U FFFB Interlineares Anmerkungsschlusszeichen kennzeichnet das Ende der Anmerkung Veraltete Tags Bearbeiten nbsp Anwendungsbeispiel von SprachtagsDer Unicodeblock Tags U E0000 bis U E007F enthalt Zeichen die ursprunglich dazu gedacht waren Sprache und andere Metainformationen in reinem Text durch Tags zu ubermitteln Diese Zeichen sind inzwischen zu Gunsten von hoheren Protokollen wie XML missbilligt 95 dieser Zeichen entsprechen den druckbaren Zeichen des ASCII Standards dazu kommen noch einige weitere Zeichen die den Typ der Metainformation oder das Ende ihrer Wirkung festlegen So legt die Folge lt U E0001 U E006A U E0061 gt fest dass der folgende Text Japanisch ist U E0001 leitet Sprachkennzeichnungen ein die beiden nachsten Zeichen konnen nachdem E000016 subtrahiert wurde wie in ASCII als ja gelesen werden der ISO 639 Sprachcode fur Japanisch Literatur BearbeitenJulie D Allen et al The Unicode Standard Version 6 2 Core Specification The Unicode Consortium Mountain View CA 2012 ISBN 978 1 936213 07 8 Chapter 16 Special Areas and Format Characters online PDF 426 kB Einzelnachweise Bearbeiten Ken Lunde Richard Cook John H Jenkins Unicode Technical Standard 37 Unicode Ideographic Variation Database online StandardizedVariants Memento des Originals vom 4 Mai 2016 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www unicode org mit visueller Darstellung in der Unicode Character DatabaseSchriftsysteme in Unicode Lateinisch Griechisch und Koptisch Kyrillisch und Glagolitisch Hebraisch Arabisch und Syrisch Indische Schriften Ostasiatische Schriften Historische SchriftenInterpunktionszeichen Zahlzeichen Symbole Mathematische Zeichen Leerraum Steuerzeichen Abgerufen von https de wikipedia org w index php title Steuerzeichen in Unicode amp oldid 221511030