www.wikidata.de-de.nina.az
Windows Codepages 0 874 Thai0 932 Japanisch0 936 Vereinfachtes Chinesisch0 949 Koreanisch0 950 Traditionelles Chinesisch1200 Unicode UTF 16 little endian1201 Unicode UTF 16 big endian1250 Mitteleuropaisch1251 Kyrillisch1252 Westeuropaisch1253 Griechisch1254 Turkisch1255 Hebraisch1256 Arabisch1257 Baltisch1258 Vietnamesisch12000 Unicode UTF 32 little endian12001 Unicode UTF 32 big endian65000 Unicode UTF 765001 Unicode UTF 8GBK kurz fur chinesisch 国家标准扩展 Pinyin Guojia biaozhǔn kuozhǎn von GB Standard sowie chinesisch 汉字内码扩展规范 Pinyin Hanzi neimǎ kuozhǎn guifan englisch Chinese Internal Code Specification ist ein chinesischer Zeichensatz Er erweitert GB2312 um traditionelle Schriftzeichen sowie um Schriftzeichen die nach der Einfuhrung von GB2312 1981 vereinfacht wurden Geschichte Bearbeiten1993 wurde Unicode 1 1 veroffentlicht das 20 902 chinesische Schriftzeichen enthalt Die chinesische Regierung hat daraufhin GB13000 1 93 veroffentlicht welcher identisch mit Unicode 1 1 ist Um die Lucke zwischen diesem Standard und dem alteren GB2312 1980 zu uberbrucken wurde auch GBK eingefuhrt das GB2312 um die Zeichen aus GB13000 1 93 erweitert Weil GBK jedoch nie zur offiziellen Norm wurde erhielt es auch keine regulare GB Nummer 1995 wurde GBK um 95 weitere Schriftzeichen erweitert In Windows 95 wurde GBK als Codepage 936 in unveranderter Form ubernommen Dadurch stieg die Verbreitung von GBK enorm und GBK wurde zum De facto Standard Spater wurde das Eurozeichen zur Codepage 936 hinzugefugt was die Codepage inkompatibel zu GBK machte In den meisten Windows Varianten wird GBK jedoch irrefuhrend als GB2312 bezeichnet Erst ab Windows XP wurde zusatzlich auch die ursprungliche Norm GB2312 unter Windows angeboten und zwar unter der Codepage Nummer 20936 mit der Bezeichnung GB2312 80 Seit 2000 ist GBK offiziell von GB 18030 abgelost Aufbau BearbeitenGBK ist eine variable 16 Bit Kodierung d h ein Zeichen kann entweder ein oder zwei Byte gross sein Die Zeichen im Bereich 00hex 7Fhex sind identisch zu ASCII und bestehen aus nur einem Byte Die Zeichen im Bereich 81hex FEhex hingegen bestehen aus zwei Bytes Ein in GBK kodierter Text kann nur vorwarts durchsucht werden da bei einem beliebigen Zeichen nicht unterschieden werden kann ob es Anfangsbyte oder Endebyte einer Zweibyte Kodierung ist Zur Unterscheidung muss der Text von Anfang an untersucht werden Diese nachteilige Eigenschaft hat GBK mit GB2312 und GB18030 und den anderen asiatischen Kodierungen SHIFT JIS japanisch BIG 5 traditionelles Chinesisch und EUC KR koreanisch gemeinsam Bei GB2312 kann auch ein durch Ruckwartssuche gefundenes ASCII Zeichen Bytewert kleiner als 128 als Ausgangspunkt fur eine Vorwartsanalyse verwendet werden da diese Werte nicht in Zwei Byte Zeichen enthalten sind bei GBK reduziert sich diese Moglichkeit auf ASCII Zeichen im Bereich 0 bis 63 da auch Bytewerte im Bereich 64 bis 127 als End Byte eines Zwei Byte Zeichens verwendet werden Dieses Problem vermeidet die Unicode Transformation UTF 8 Obwohl hier auch bis zu vier Byte pro Zeichen benotigt werden kann doch von jedem Byte eindeutig gesagt werden ob es ein Ein Byte Zeichen ein Anfangs Byte eines Mehr Byte Zeichens oder ein Folge oder End Byte eines Mehr Byte Zeichens ist Der Zwei Byte Bereich ist in acht Ebenen eingeteilt GBK Levels Level 1 Byte 2 Byte Verfugbare Codepunkte ZeichenGB 18030 GBK 1 0 GB 2312Level GBK 1 A1 A9 A1 FE 846 728 717 682Level GBK 2 B0 F7 A1 FE 6768 6763 6763Level GBK 3 81 A0 40 FE ausser 7F 6080 6080Level GBK 4 AA FE 40 A0 ausser 7F 8160 8160Level GBK 5 A8 A9 40 A0 ausser 7F 192 166benutzerdefiniert AA AF A1 FE 564benutzerdefiniert F8 FE A1 FE 658benutzerdefiniert A1 A7 40 A0 ausser 7F 672insgesamt 23 940 21 897 21 886 7 445Code 0 1 2 3 4 5 6 7 8 9 A B C D E F0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US2 SP amp 3 0 1 2 3 4 5 6 7 8 9 lt gt 4 ASCII oder zweites Byte einer zwei Byte langen Sequenz 5 6 7 DEL8 9 Erstes oder zweites Byte einer zwei Byte langen Sequenz A B C D E F 0 1 2 3 4 5 6 7 8 9 A B C D E FWeblinks BearbeitenWindows Codepage 936 Entwicklung chinesischer Zeichenkodierungen Link nicht mehr korrekt Chinesische Zeichenkodierung Abgerufen von https de wikipedia org w index php title GBK Zeichensatz amp oldid 222146707