www.wikidata.de-de.nina.az
Entitaten englisch entity entities werden in Auszeichnungssprachen englisch markup languages wie SGML XML HTML XHTML und HTML5 verwendet um wiederkehrende Informationseinheiten zu verwalten und wiederzuverwenden Die weit verbreitete Syntax fur Entitaten basiert auf SGML Bei der Entwicklung von XML und HTML Version 5 wurden Teile aus SGML ubernommen so auch einige Moglichkeiten zur Definition von Entitaten Haufigster Vertreter ist die Zeichen Entitat welche durch ein einzelnes Zeichen ersetzt werden soll Dabei wird insbesondere eine mnemotechnische Abkurzung benannte Entitat ersetzt durch die dezimal oder hexadezimal angegebene Zeichencodierung numerische Entitat Zeichenverweis Inhaltsverzeichnis 1 Benannte Entitat 2 Zeichenverweis Numerische Entitat 3 Ersetzung von Entitaten durch Schriftzeichen 4 Zukunft der Zeichenentitaten 5 ISO genormte Zeichennamen 6 Anmerkung 7 XHTML 8 Parameter Entitaten 9 Literatur 10 Weblinks 11 EinzelnachweiseBenannte Entitat BearbeitenNamen benannte Zeichenentitaten sind fur Menschen da Zahlen fur Maschinen Computer konnen problemlos funfstellige Zeichencodierungen verarbeiten nur Menschen haben ihre Schwierigkeiten damit Benannte Entitaten verbessern die Lesbarkeit von Dokumenten durch den Benutzer Mittels einer Dokumenttypdefinition DTD wird eine benannte Entitat mit Name Entitatsname und Inhalt Entitatsinhalt deklariert Wird im Dokumententext auf den Entitatsnamen referenziert dann ersetzt der Parser die Referenz durch den Entitatsinhalt 1 Beispiele Hier wird vereinbart alle amp amp durch das Zeichen dezimal 38 zu ersetzen lt ENTITY amp CDATA amp 38 gt lt ampersand Kaufmannisches Und et amp gt DTD Format HTML dd Dokumenten Text mit klarer Bedeutung He is 6 amp foot 2 amp inch tall dd Zu diesem Dokument werden drei unterschiedliche DTD verwendet dd DTD fur 7 bit ASCII Umgebung dd dd lt ENTITY foot amp 39 gt lt gt lt ENTITY inch amp 34 gt lt gt DTD fur Multibyte Unicode Umgebung dd dd lt ENTITY foot amp 8242 gt lt gt lt ENTITY inch amp 8243 gt lt gt DTD fur Audiobook Umgebung dd dd lt ENTITY foot foot gt lt ENTITY inch inch gt Zeichenverweis Numerische Entitat BearbeitenIn der SGML Norm wurden numerische Entitaten als Zeichenverweise engl Character Reference eingefuhrt 2 Auch in XML werden numerische Entitaten als Zeichenverweise definiert 3 Bei der numerischen Entitat wird der Zeichencode als Entitat in das Dokument eingetragen als amp i nnn i wobei nnn die dezimale Codierung des einzusetzenden Zeichens ist oder amp x i hhhh i wobei hhhh die hexadezimale Codierung des einzusetzenden Zeichens ist Der Parser ersetzt den Zeichencode durch das codierte Zeichen siehe auch HTML Entitat Ersetzung von Entitaten durch Schriftzeichen BearbeitenDer Ersatz einer Zeichenentitat im Quelltext muss nicht zwingend 1 1 durch ein anderes Zeichen erfolgen In europaisch codierten Sprachen lateinisch griechisch sind diakritische Zeichen ublich Beispiel Das Zeichen e kann wahlweise definiert sein als lt ENTITY eacute amp 233 gt lt ENTITY eacute amp xE9 gt hexadezimal lt ENTITY eacute e gt lt ENTITY eacute e amp x0301 gt lt ENTITY Kleines E mit Strich druber nach rechts oben e amp x02CA gt In den ersten beiden Definitionen wird das benannte durch eine numerische Entitat ersetzt im dritten durch ein einzelnes Unicode ANSI Zeichen und im vierten durch eine Kombination zweier Zeichen ein Akut mit dem Grundbuchstaben e Es muss aber nicht immer ein Grundbuchstabe mit genau einem diakritischen Zeichen zusammentreffen mehrere solcher Modifikationen konnen uber unter und neben dem Grundbuchstaben erfolgen In aussereuropaischen Schriftsystemen existieren ausserdem vielfaltige Ligaturen also unterschiedlichste Kombinationen zusammentreffender Einzelbuchstaben als Beispiele sei Devanagari oder Tamilisch herausgegriffen In anderen Fallen beispielsweise im Arabischen hangt die Gestalt des sich ergebenden Schriftzeichens vom Kontext von der sprachlichen Bedeutung ab und nicht nur vom Zusammentreffen numerisch codierter Einzelzeichen wie es leicht durch eine Software umgerechnet werden kann Im Deutschen ware als entsprechendes Beispiel die korrekte Verwendung des langen s und runden s zu nennen oder das Verbot von ff fi fl Ligaturen uber Silbengrenzen hinweg Nicht jede Kombination mehrerer Elemente zu einem Schriftzeichen ist jedoch mit einer eigenen Unicode Nummer registriert Deshalb muss auch kunftig den Anwendern die Moglichkeit gegeben werden spezifische Schriftzeichen als eigene character entities zu vereinbaren Eine Entitat kann ferner ein Verweis auf eine Grafik Bitmap wie auch SVG sein Beispiel In einer Sammlung von Texten in Koreanischer Schrift wird die Entitat amp ko 37 verwendet Der Herausgeber verteilt die Dokumente zusammen mit den folgenden vier DTD lt ENTITY ko 37 amp 12629 gt lt ENTITY Encoding UCS gt Unicode lt ENTITY ko 37 yeo gt lt ENTITY Encoding romanization gt Romanisierung lt ENTITY ko 37 A gt lt ENTITY Encoding EUC KR gt EUC KR lt ENTITY ko 37 amp 60 img src ko 37 png amp 62 gt lt ENTITY Encoding graphic glyphs gt Ersatzgrafik In den vielen Nutztexten werden dann die Zeichen mittels der amp ko nn geschrieben Zu Beginn jedes Textes kann ein Hinweis eingefugt sein wie etwa This document view is shown in amp Encoding version amp koTXT Version required 1 2 dd Damit werden die Leser informiert welches DTD zurzeit eingebunden wird und konnen bei Darstellungsproblemen Abhilfe schaffen Zukunft der Zeichenentitaten BearbeitenMit der allmahlichen Verbreitung von UTF 8 UTF 16 UCS 2 und UCS 4 in internationalen IT Anwendungen nimmt die Notwendigkeit einer Codierung von Schriftzeichen mittels character entities allmahlich ab Es wird aber noch viele Jahre dauern bis weltweit das letzte Kommunikationsprotokoll und die letzte Software Anwendung Multi Byte Zeichen fehlerfrei handhaben kann Daher bleibt die Notwendigkeit bestehen fur den Austausch mittels numerischer Entitaten selbst noch auf die Stufe us ascii 7 bit zuruckfallen zu konnen Die Konvertierung ist aber in beiden Richtungen verlustfrei moglich sofern die general entities dabei nicht angetastet werden und sofern uberhaupt eine spezifische Codierung im Universal Character Set existiert Bedeutung wird die Darstellung als benannte Entity wohldefinierter Einzelzeichen langfristig nur fur das Lesen und Schreiben von XML Quelltext durch menschliche Bearbeiter behalten wenn Zeichen ausserhalb der jeweiligen Sprachwelt vorkommen seien sie nun fremdsprachlich oder auch mathematisch Zu erwarten ist dass im Quelltext fur die Betrachtung und Veranderung die Codierungen aus problematischen Zahlenbereichen on the fly in benannte Entitaten umgewandelt und bei Abspeicherung wieder in numerische Entitaten oder direkt als Zeichen codiert werden Das Namensschema liegt dann lediglich lokal beim Bearbeiter vor und dringt nicht nach aussen neben den verbreiteten durch SGML definierten englischen Namen konnen genauso gut auch deutsche franzosische oder russische Entitatennamen angezeigt werden Benannte Zeichenentitaten waren 1986 unter den damaligen Bedingungen ein sinnvolles und notwendiges Konzept in SGML Unter sich langsam andernden Bedingungen und mittels benutzerfreundlicher grafischer Eingabehilfen besteht auf modernen Systemen diese Notwendigkeit nicht mehr sofern Unicode Zeichen definiert sind Bei HTML der haufigsten Anwendung ist das der Fall ISO genormte Zeichennamen BearbeitenSGML 1986 Latin Lettersisolat1 Added Latin 1 isolat2 Added Latin 2 isodia Diacritical Marks dd Graphics and Symbolsisonum Numeric and Special Graphic isopub Publishing Typographic isotech General Technical isobox Box and Line Drawing dd Added Mathematical Symbolsisoamsa Arrow Relations isoamsb Binary Operators isoamsc Delimiters isoamsn Negated Relations isoamso Ordinary isoamsr Relations dd Greek Charactersisogrk1 Greek Letters isogrk2 Monotoniko Greek isogrk3 Greek Symbols isogrk4 Alternative Greek Symbols dd Cyrillic Charactersisocyr1 Russian Cyrillic isocyr2 Non Russian Cyrillic dd dd Dabei wurden nur die Namen und eine Beschreibung des Zeichens festgelegt die Zuordnung von Codierungen konnte erst spater mit Unicode erfolgen Definition unter www w3 org 2003 entities iso8879docHTML 2 1995 Ersatzzeichen fur die HTML Syntax amp lt gt quot Benannte Zeichen fur ISO 8859 1 also Codierungen 160 255 Deren Definition ist identisch mit SGML isolat1 wiedergegeben als www w3 org TR REC html40 HTMLlat1 ent 4 dd HTML 4 1999 Wie HTML 2 aber Definition 152 weiterer Codierungen gt 255 fur die Darstellung Unicode erforderlich UTF 8 Definitionen erhaltlich 5 unter www w3 org TR REC html40 HTMLlat1 ent www w3 org TR REC html40 HTMLsymbol ent www w3 org TR REC html40 HTMLspecial ent Diese URL erwecken den Eindruck ein HTML Browser musste die Definitionen standig aus dem Internet nachladen Das ist nicht so die Standardzeichen sind fest einprogrammiert alle HTML anzeigenden Programme sollten sie kennen XML 1998 Vordefiniert sind nur general entities amp lt gt apos quot als Ersatzzeichen der XML Syntax Anwender konnen beliebige Entitaten selbst definieren oder die vorstehend benannten DTD aus SGML oder HTML einbinden XHTML 2000 Wie HTML 4 aber von XML zusatzlich das amp apos geerbt siehe dazu unten MathML Definiert sind Hunderte von Sonderzeichen wie sie fur mathematische Formeln benotigt werden Uberwiegend werden eigene Namen verwendet die fast immer langer als die bei HTML und SGML sind XML 2010 2007 2010 wurden alle gebrauchlichen Namen zusammengetragen und in einem Entwurf vereinigt 6 In einer DTD sind 2237 Namen auf Zeichencodierungen abgebildet www w3 org 2003 entities 2007 w3centities f ent Insbesondere SGML 1986 und MathML sind abgedeckt damit ist auch HTML vollstandig enthalten Im Einzelfall wurde auch auf die praktikabelste Variante standardisiert wo fur den gleichen Zweck unterschiedliche Abbildungen auf mehrere Zeichencodes existierten Fur dasselbe Zeichen konnen mehrere Namen verwendet werden dezimalZeichenUnicode Entitat Definition168 U 00A8 die SGML isodia Dot SGML isotech uml HTML 2 SGML isodia913AU 0391 Agr SGML isogrk1 Alpha HTML 48598 U 2196 nwarr SGML isoamsa north west arrow amp x2196 HTML UpperLeftArrow MathML nwarrow MathMLDem Zeichen A ist dabei nicht anzusehen ob es ein griechisches grosses Alpha oder ein lateinisches A ist Anmerkung BearbeitenGelegentlich erfolgt der Einwand mnemonische Entitaten wurden die Arbeit unnotig kompliziert machen weil die entsprechenden DTDs vereinbart und bereitgestellt werden mussten und man solle doch gleich die richtigen Zeichen tippen bzw nur mit den numerischen Entitaten arbeiten Dazu einfach ein Beispiel in SGML isocyr1 zum Vergleich amp Rcy amp ucy amp scy amp scy amp kcy amp icy amp jcy Russkij amp 1056 amp 1091 amp 1089 amp 1089 amp 1082 amp 1080 amp 1081 amp x0420 amp x0443 amp x0441 amp x0441 amp x043A amp x0438 amp x0439 RusskijEs kann durchaus sinnvoll sein nach dem Editieren die benannten Entitaten automatisch in die numerische Form umzuwandeln in diesem Format an Andere weiterzugeben aber bei der nachsten Anderung durch menschliche Bearbeiter die numerischen Entitaten wieder mnemonisch darzustellen Die Darstellung als Entitaten hat weiterhin den Vorteil dass unterschiedliche Zeichen mit unterschiedlicher Bedeutung die sich bei der grafischen Darstellung sehr ahneln z B Hochkomma Akzent Apostroph Anfuhrungszeichen eindeutig unterschieden werden konnen XHTML BearbeitenXHTML enthalt exakt alle Definitionen aus HTML 4 0 und in jeder Implementierung mussen alle benannten Entitaten bekannt sein und sind es auch ublicherweise hard coded Diese Weiterentwicklung betrifft inneres Format und Struktur der Elemente tags nicht aber den Nutztext und nicht die Entitaten Allerdings traten Mitte der 2000er Jahre vermehrt Probleme in der Kommunikation mit Webservern auf Sie stellen die Dokumente nicht mehr mit dem MIME Typ text html bereit sondern als application xml text xml und andere Dies fuhrte damals tatsachlich zu Darstellungsproblemen wenn altere Browser daraufhin den Text nicht mehr als HTML erkennen Weiterhin gibt es XML Anwendungen die mit Textpassagen arbeiten und die dazu die vergleichbaren und bekannten HTML Elemente nachempfunden haben Aktuelles und haufigstes Beispiel sind schriftliche RSS Web Feeds News Sie enthalten wie HTML lt p gt lt span gt lt div gt und auch lt head gt lt body gt Der Quelltext sieht daher aus als ob es sich um HTML handeln wurde Da dieses aber gar kein HTML Dokument ist konnen benannte Entitaten nicht benutzt werden sofern die entsprechenden DTD nicht eingebunden wurden oder die Darstellungssoftware meist der Webbrowser die wohlbekannten Definitionen nicht von sich aus anwendet Parameter Entitaten BearbeitenEin Sonderfall in SGML XML usw sind parameter entities Sie durfen nicht in Dokumenten sondern nur innerhalb der DTD benutzt werden Ansonsten haben sie die identische Syntax jedoch steht statt amp ein am Beginn Syntax der Deklaration lt ENTITY Name SYSTEM externe datei gt Syntax der Referenz Aufruf der Entitat Name Literatur BearbeitenCharles Goldfarb Priscilla Walmsley XML in Office 2003 Daten managen mit Word Excel FrontPage und InfoPath Pearson 2004 ISBN 978 3 8273 2179 4 books google deWeblinks BearbeitenHTML Entitaten Unicode Encoding Numeric Character References und Entities Encoding und decoding HTML EntitatenEinzelnachweise Bearbeiten Goldfarb u a XML in Office 2003 Pearson 2004 S 320 322 ISO 8879 1986 10 In www din de Abgerufen am 4 Dezember 2016 Extensible Markup Language XML 1 0 Fifth Edition In www w3 org Abgerufen am 4 Dezember 2016 HTMLlat1 ent w3 org abgerufen am 29 Marz 2019 englisch Eine bequemer lesbare Ressource unter Character entity references in HTML 4 ebenfalls W3C Zuletzt 10 April 2014 W3C Recommendation Das Dokument hatte also den Status einer Empfehlung Abgerufen von https de wikipedia org w index php title Entitat Auszeichnungssprache amp oldid 230240783