Big5
Big5(ビッグファイブ、中国語名:大五碼あるいは五大碼)は、繁体字中国語の文字コード(文字集合)で、台湾・香港・マカオといった繁体字圏で最も一般的に使われている。
特徴
編集1984年5月1日に台湾の資訊工業策進会(Institute for Information Industry)が制定したもので、「電腦用中文字型與字碼對照表」として発行したものである。5大パソコンメーカーであったエイサー(宏碁)、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で策定したことによりこの名がある。このオリジナルのBig5の文字セットは、後の拡張と対比してBig5-1984と呼ばれることがある。
ローマ字、アラビア数字、蘇州号碼、記号類、注音符号のほか、漢字1万3062字を収録するが、そのうち2字は重複しているため、実際の漢字の文字集合は1万3060字である[1]。台湾や香港、マカオなどの繁体字地域で普及しているが、MS-DOS時代の「中国語システム(中文系統)」、WindowsやMac OSといったオペレーティングシステムで採用されたことにより定着したデファクトスタンダードである。2003年にCNS 11643の附属書で追認され公的規格となった。
2バイトで約1万3000字を収容し、第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲をとる。大きく分けて、非漢字、常用漢字、次常用漢字の3つのブロックで構成され、漢字は総画数順、次いで部首順に配列されている。これはJIS X 0208やGB 2312の第2水準の「部首・画数順」とは逆になる。なお一部、重複している漢字や、配列の誤りがある。
符号空間がシフトJISと似ており、第二バイトに0x5Cが含まれるため、シフトJISの抱える円記号問題と同様の問題をも抱えている。ただし、シフトJISはJIS X 0208文字集合の符号化方式の一つであるのに対して、Big5は文字集合と符号化方式が一体化しており、通常これ以外の符号化方式で利用されない点が大きく異なる。
拡張
編集Big5に対しては、これまでさまざまな拡張が行われている。代表的なものについて以下に挙げる。
民間の独自拡張
編集民間の独自拡張としては、Windows 95以前に最も普及していた中国語システムである倚天中文系統のものが古くから知られている。「碁銹恒裏墻粧嫺」の7字(倚天拡張字)のほか、罫線素片やキリル文字、丸数字などが採用されている。また倚天の拡張には仮名が含まれ、Big5ベースのシステムで日本語を表現する方法として盛んに用いられた。この拡張は、時に「Big5-Eten」とも呼ばれ、独自拡張としては最も重要なものの一つといえる。
Microsoft Windowsで使われている繁体字文字集合である「コードページ950」は、オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れたものである。Windows MEからは、「€(ユーロ記号)」が追加された。
台湾の公的拡張
編集- Big5+
- 中文數位化技術推廣基金會(Chinese Foundation For Digitization Technology, CMEX, 中推会)が「BIG-5碼字集擴編計畫」により1997年7月に策定したもので、ISO/IEC 10646:1993 (Unicode 1.1) の漢字をすべて取り入れたもの。追加部分は、一般の文書で常用される「標準字集」の4670字と、「推薦字集」の3250字からなる。この文字コードセットは、従来のBig5のコードの範囲を超えていることから、Windowsなどのパーソナルコンピュータ・オペレーティングシステムで使用することができず、ほとんど普及しなかった。Unicodeの漢字をすべて取り込んだことと、文字符号化の手法の2点において中国のGBKによく似ている。
- Big-5E
- 「BIG-5碼補充字集 (BIG-5 Extension Character Set)」の略称。Big5の外字エリアに収まるようにBig5+の「標準字集」から政府機関で常用される3954字を選び出したもの。
- Big5-2003
- 中華民国国家標準を所管する経済部標準検験局の委託を受けた中推会は、国内の業者・専門家を招集して Big5の対照表を作成し、CNS 11643に附属書として盛り込んだ。これにより Big5は正式に公的規格の一部分となった。
- Big5-2003には、Big5-1984の全ての文字のほか、マイクロソフト・コードページ950のユーロ記号、倚天拡張の0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE の範囲の文字が追加された。Big5-2003には、CNS 11643にないという理由で、「行列輸入法」の特殊符号や0xC7F3-0xC875のキリル文字は収録されなかった。それ以外の倚天拡張の文字は全て取り込まれた。
香港の公的拡張
編集注
編集- ^ 漢字領域以外に度量衡記号の領域0xA259-0xA261に「兙兛兞兝兡兣嗧瓩糎」の9文字がある。重複字は「兀」(0xC94A)と「嗀」(0xDDFC)。
参考資料
編集- Lunde, Ken 著、小松章、逆井克己 訳『CJKV : 日中韓越情報処理』オライリージャパン、2002年。ISBN 4-87311-108-0。
- CMEX財團中文數位化技術推廣基金會