www.wikidata.de-de.nina.az
Extended UNIX Coding Abkurzung EUC ist eine 8 Bit Zeichencodierung die vor allem fur Chinesisch Japanisch und Koreanisch gebraucht wird EUC ist eine Sammelbezeichnung fur verschiedene Kodierungen die je nach Land bis zu vier unterschiedliche Zeichensatze kodieren konnen Ursprunglich entwickelt von der Open Software Foundation OSF Unix International UI und den Unix System Laboratories Pacific USLP als Standardkodierung fur UNIX Systeme findet diese Kodierung heute immer weniger Verwendung da sie oft von weiter verbreiteten lokalen Kodierungen Shift JIS Big5 etc und oder Unicode UTF 8 abgelost wurde Inhaltsverzeichnis 1 Gemeinsamkeiten 2 EUC JP 3 EUC KR 4 EUC CN 5 EUC TWGemeinsamkeiten BearbeitenAlle EUC Kodierungen haben einige Gemeinsamkeiten Sie unterstutzen bis zu vier verschiedene Zeichensatze in EUC Terminologie Code Sets genannt Code Set 0 ist immer 7 Bit ASCII Code Sets 1 3 sind je nach Unterart verschieden Code Set 0 wird immer durch ein Byte direkt kodiert Es gibt zwei Spezialzeichen Escape Zeichen die zum Umschalten auf Code Set 2 bzw Code Set 3 verwendet werden SS2 0x8e und SS3 0x8f Der Nicht ASCII Bereich von 0xa0 0xff wird fur Multi Byte Zeichen verwendet Fur die Code Sets 1 bis 3 gibt es mehrere Moglichkeiten der Kodierung je nach Untervariante von EUC unterschiedlich Folgende Kodierungen sind moglich Code Set Variante 1 Variante 2 Variante 3Code Set 0 1 Byte 0x21 0x7eCode Set 1 1 Byte 0xa0 0xff 2 Bytes 0xa0 0xff 0xa0 0xff 3 Bytes 0xa0 0xff 0xa0 0xff 0xa0 0xffCode Set 2 2 Bytes 0x8e 0xa0 0xff 3 Bytes 0x8e 0xa0 0xff 0xa0 0xff 4 Bytes 0x8e 0xa0 0xff 0xa0 0xff 0xa0 0xffCode Set 3 2 Bytes 0x8f 0xa0 0xff 3 Bytes 0x8f 0xa0 0xff 0xa0 0xff 4 Bytes 0x8f 0xa0 0xff 0xa0 0xff 0xa0 0xffEUC JP BearbeitenEUC JP stellt die in Japan verwendete Variante dar Code Set 0 ist ASCII genaugenommen JIS Roman und wird durch ein Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert Code Set 1 ist JIS X 0208 1997 und wird durch zwei Zeichen kodiert Variante 2 in der obigen Tabelle Code Set 2 sind halbbreite Katakana die auch durch zwei Bytes kodiert werden Variante 1 in der Tabelle Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf da es nur 56 Katakana und eine Handvoll Sonderzeichen gibt und diese dann der 1 Byte Kodierung aus JIS X 0201 1997 entsprechen nur eben mit dem Escape Zeichen 0x8e als Prafix In Code Set 3 wird JIS X 0212 1990 in der drei Byte Variante kodiert EUC KR BearbeitenEUC KR ist die in Korea verwendete Version von EUC Sie ahnelt ISO 2022 KR bzw KS X 1001 EUC CN BearbeitenEUC CN wird in China verwendet und entspricht GB2312 Es kodiert die vereinfachten chinesischen Schriftzeichen EUC TW BearbeitenEigentlich entwickelt fur Taiwan wird EUC TW nur sehr selten verwendet Sehr viel verbreiteter ist dort Big5 Beide kodieren die traditionellen chinesischen Schriftzeichen Abgerufen von https de wikipedia org w index php title Extended UNIX Coding amp oldid 171799424