使ってはいけない文字(β版)
1999年7月26日初出、1999年11月3日更新
このページは Windows 95/98/NT に依存した文字コードを使用している。また、その一部は8ビットコードである。そのため、Windows 以外の環境の人はこのページを読むことができない可能性があることをあらかじめ断っておく。 This page uses Windows 95/98/NT dependent charactors. And some of them are 8bit. So non-Windows user may not read this page.
電子メールで日本語を使う上で使ってはいけない文字がある。それは JIS X 0201 の片仮名(いわゆる半角カナ)と機種依存文字である。これらの文字を使用すると、様々な問題が生じる可能性がある。相手の環境でその文字だけが表示できないのはまだましな方で、相手のメイラーの日本語のコード処理で想定外であるため問題が生じて文書全体が日本語の文字ではなく ASCII のまま表示されたり、途中の経路(MTA)によって文書全体が符号化されたりして、文書全体が全く読めなくなることもある。
この文書では Windows 95/98/NT の環境における文字について説明を行うが、基本的な考え方は同じ(JIS X 0201 の片仮名、JIS X 0208 の空き領域、Shift_JIS の保留域を使わない)であるので、他の環境の方も注意してほしい。
JIS X 0201 片仮名
Section titled “JIS X 0201 片仮名”JIS X 0201 の1バイト片仮名は所謂「半角カナ」と呼ばれ、文字コードとして161(0xa1)から223(0xdf)までの数値を用いる。電子メールで日本語を使う上での実質的な標準(RFC としては infomation)である RFC 1468 “Japanese Character Encoding for Internet Messages” によれば、JIS X 0201 Kana set を使わないと記述されており、1バイト片仮名は使用できない。これを無理矢理使おうとすると、文字コードとしては127を越えて、8 ビットであるため、途中経路で問題が生じる可能性がある。
なお、JIX X 0208:1997 の付属書1では JIX X 0201 の片仮名用図形文字集合の割当ては、将来の改正で削除すると予告している。これは、片仮名が所謂「全角・半角」の扱いで重複符号化していて、JIS/ISO の図形文字の一意な符号化という基本原則に反していること(*1)と、Shift_JIS の将来の拡張の余地を残すこと(*2)が主に理由である。
*1)片仮名を使うなら JIS X 0208 の文字を使えということ。 *2)Shift_JIS は拡張性がないため、片仮名の領域を削除しないことには使える文字が増やせないということ。来年始めに制定される予定の JIS X 0213 「7ビット及び8ビットの2バイト情報交換用符号化漢字集合 第3水準及び第4水準」(仮称)では、1バイト片仮名を残したまま何とか拡張している。さらに拡張しようと思ったら1バイト片仮名を削除しないと無理であろう。
Windows 95/98/NT の機種依存文字
Section titled “Windows 95/98/NT の機種依存文字”下記の文字は Windows 95/98/NT で使うことはできるが、JIX X 0208 「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」の空き領域(9-15, 85-94区)や Shift_JIS の保留域にメーカーが勝手に割り当てた独自仕様の機種依存文字のため、様々な問題が生じる可能性がある。
NEC PC-9801 シリーズで使用されていた特殊記号文字。なお、「≒≡∫√⊥∠∵∩∪」に関しては2区にも該当する文字がある(JIS X 0208-1983 で追加された)のでそちらを使うように注意すべきである。使用する IME によっては変換候補として出してしまうこともあるので注意が必要である。
13区 ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ㍉㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡㍻〝〟№㏍℡㊤㊥㊦㊧㊨㈱㈲㈹㍾㍽㍼≒≡∫∮∑√⊥∠∟⊿∵∩∪㊙
NEC選定IBM拡張文字
Section titled “NEC選定IBM拡張文字”IBM のメインフレームで使用されている文字のうち JIS X 0208 で規定されていないものを NEC が PC-9801 シリーズ用に選んで JIS X 0208 の空き領域に配置した文字。使用する IME によっては変換候補として出してしまうこともあるので注意が必要である。
89区 纊褜鍈銈蓜俉炻昱棈鋹曻彅丨仡仼伀伃伹佖侒侊侚侔俍偀倢俿倞偆偰偂傔僴僘兊兤冝冾凬刕劜劦勀勛匀匇匤卲厓厲叝﨎咜咊咩哿喆坙坥垬埈埇﨏塚增墲夋奓奛奝奣妤妺孖寀甯寘寬尞岦岺峵崧嵓﨑嵂嵭嶸嶹巐弡弴彧德
90区 忞恝悅悊惞惕愠惲愑愷愰憘戓抦揵摠撝擎敎昀昕昻昉昮昞昤晥晗晙晴晳暙暠暲暿曺朎朗杦枻桒柀栁桄棏﨓楨﨔榘槢樰橫橆橳橾櫢櫤毖氿汜沆汯泚洄涇浯涖涬淏淸淲淼渹湜渧渼溿澈澵濵瀅瀇瀨炅炫焏焄煜煆煇凞燁燾犱
91区 犾猤猪獷玽珉珖珣珒琇珵琦琪琩琮瑢璉璟甁畯皂皜皞皛皦益睆劯砡硎硤硺礰礼神祥禔福禛竑竧靖竫箞精絈絜綷綠緖繒罇羡羽茁荢荿菇菶葈蒴蕓蕙蕫﨟薰蘒﨡蠇裵訒訷詹誧誾諟諸諶譓譿賰賴贒赶﨣軏﨤逸遧郞都鄕鄧釚
92区 釗釞釭釮釤釥鈆鈐鈊鈺鉀鈼鉎鉙鉑鈹鉧銧鉷鉸鋧鋗鋙鋐﨧鋕鋠鋓錥錡鋻﨨錞鋿錝錂鍰鍗鎤鏆鏞鏸鐱鑅鑈閒隆﨩隝隯霳霻靃靍靏靑靕顗顥飯飼餧館馞驎髙髜魵魲鮏鮱鮻鰀鵰鵫鶴鸙黑ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ¬¦'"
IBM拡張文字
Section titled “IBM拡張文字”IBM のメインフレームで使用されている文字のうち JIS X 0208 に規定されていないものを IBM が PC 用に Shift_JIS の保留域(0xfa40 - 0xfc4b)に配置した文字。Shift_JIS から区点に変換する計算を単純に行うと下記のように JIS X 0208 の定義外の 115 区から 119 区になるため、ISO-2022-JP や EUC-JP には変換できない。無理矢理 ISO-2022-JP に変換しようとする(区点それぞれの数値に 0x20 (32) を加える)と計算上 0x7f (127) を越え 8bit コードとなってしまうので、経由する MTA によって勝手に quoted-printable や base64 に変換されてしまうことがある。そのため決して使うべきではない。ただし、IME の通常の変換候補としては出ることはまずないため、コード表から入力をしたり、この文字を単語登録したりしない限りおおむね大丈夫である。
115区 邸
116区 如
117区 鼻
118区 法
119区
漢字コード一般
Section titled “漢字コード一般”- 文字コードの話 http://hp.vector.co.jp/authors/VA001240/article/charcode.html
- 漢字コードの話 http://www.yk.rim.or.jp/~mak/technical/kanji.html
- 日本語と文字コード(The Web KANZAKI) http://www.kanzaki.com/docs/jcode.html
- 日本の「漢字表」 http://www.kudpc.kyoto-u.ac.jp/~yasuoka/kanjibukuro/japan.html
機種依存文字、1バイト片仮名
Section titled “機種依存文字、1バイト片仮名”- 情報交換用漢字符号系 JIS X 0208 http://www.noge.com/koba/network/mail/JIS-X-0208.html
- Windows 95で機種依存文字や「半角カナ」を入力しない方法 http://www3.justnet.ne.jp/~s_kishimoto/fj/misc/hankana.htm
- なぜ半角カナは嫌われるのか(メモ) http://www.ryukyu.ad.jp/~shin/jdoc/hankaku-kana.html
- 「いわゆる半角カナ」について http://netnews.to/tec/jskana.htm
滝澤 隆史(TAKIZAWA Takashi) taki@cyber.email.ne.jp