The Unicode HOWTO <author>Bruno Haible, <htmlurl url="mailto:haible@clisp.cons.org" name="<haible@clisp.cons.org>"> <date>v0.15, 25 January 2000 <trans>早川仁, <htmlurl url="mailto:cz8cb01@linux.or.jp" name="<cz8cb01@linux.or.jp>"> <tdate>V0.15j, 2000年01月01日 <abstract>  このドキュメントは UTF-8 をテキストエンコーディングとして使用するように Linux システムを変更する方法について説明しています。この文書は現在作業中ですから tips、パッチ、助言、URL を大歓迎します。 </abstract> <toc> <sect>翻訳について <sect1>訳語統一 訳語は、当文書の中では以下で統一してあります。 <descrip> <tag/character set/文字セット <tag/script/用字 <tag/locale/ロケール <tag/wide character/ワイド文字 </descrip> 用字(script)とは 1 つ以上の言語の表記の方法で使用する、図形文字の集合のことだそうです。たとえば「ひらがな」「カタカナ」「ラテン文字(アルファベット)」といった文字の種類を指します。日本語は「ひらがな」「カタカナ」「ラテン文字」「日本漢字」といったように多数の用字を混在して使う言語ですが、英語は通常ラテン文字しか使いません。 <sect1>参考文献 翻訳にあたり、以下の文献を参考としました。 <itemize> <item>「国際化プログラミング I18Nハンドブック」清兼義弘・末廣陽一／編著 <item>BSD magazine 1999 No.2 「BSD における国際化」わたなべごう／著 </itemize> <sect1>翻訳者謝辞 翻訳の際には以下の方々に多数の有益なコメント、校正をしていただきました。ありがとうございました。 <itemize> <item>佐藤亮一さん <item>藤原輝嘉さん <item>武井伸光さん <item>斎藤幹さん <item>森本淳さん <item>中野武雄さん </itemize> <sect1>最新版の原文のありか オリジナルの Unicode-HOWTO 最新版は <url url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html"> にあります。 <sect>  イントロダクション <sect1>  なぜ Unicode を使うのですか？  異なった国の人々は、それぞれの母国語の単語を表現するのに異なった文字を使用しています。現在では email システムや web ブラウザなど、ほとんどのアプリケーションは 8 ビットクリーンです。つまり ISO-8859-1 のような 8 ビット文字セットで表現されるテキストの取り扱いや表示を正しく行えるということです。  世界には 256 よりも遥かに多くの文字があります。例えばキリル文字、ヘブライ語、アラビア語、中国語、日本語、韓国語、タイ語などです。新しい文字も時々作られています。利用者に問題になってくることには次のようなものがあります。 <itemize> <item>  一つの文書の中に異なる文字セットの文字を混在させることができない場合。例をあげると TeX, xdvi, PostScript を使っている場合には、ドイツ語やフランス語の文書でロシア語での引用をすることができますが、ただのテキストファイルでは無理です。 <item>  それぞれの文書が固有の文字セットを持ち、文字セットの認識が自動でなければ、ユーザーが介在してこれを手動で行わなければなりません。例えば XTeamLinux distribution のホームページ <htmlurl url="http://www.xteamlinux.com.cn/" name="http://www.xteamlinux.com.cn/"> を見るためには、Netscape にその web ページは GB2312 コードであると指示する必要があります。  <item>  ユーロのような新しいシンボルも生み出されています。ISO は新しい標準 ISO-8859-15 を発表(issue)しました。これはほとんど ISO-8859-1 と同じですが、ほとんど使われない文字(古い通貨のマーク)を取り除いて、ユーロのマークと置き換えました。ユーザーがこの標準を使用することにした場合、ディスク内に違った文字セットの文書を持つことになります。つまり、文字セットのことを常に考慮する日々のはじまりということです。ですがコンピュータは物事をシンプルにするためのものであり、より複雑にするものではありません。 </itemize>  この問題を解決するには、ワールドワイドに使用できる文字セットを使うことです。その文字セットとは Unicode <htmlurl url="http://www.unicode.org/" name="http://www.unicode.org/"> のことです。Unicode に関する詳細は `<tt>man 7 unicode</tt>' を実行してください。(manpage は man-pages-1.20 パッケージに含まれています) <sect1>  Unicode のエンコーディング  Unicode エンコーディングを使うと、文字セットを扱うユーザープログラムの問題は、「どうやって 1 オクテット(8 ビット)で Unicode 文字を送るのか」という技術的な問題だけになります。8 ビットという単位は、多くのコンピュータで、アドレスを表現する最小単位です。またこの 8 ビットという単位は、TCP/IP ネットワークでのコネクションにも使用されています。1 文字を表現するのに 1 バイトを使用するというのは歴史的な偶然であり、これはコンピュータの開発がヨーロッパとアメリカで始まったことによります。これらの国々では長い間、96 種類の文字で充分とされてきました。  Unicode 文字をバイトでエンコードする方法には、通常 4 種類あります。 <descrip> <tag>UTF-8</tag>  128 文字が 1 バイトでエンコードされます(ASCII 文字)。1920 文字が 2 バイトでエンコードされます(ローマ字、ギリシャ文字、キリル文字、コプト語、アルメニア語、ヘブライ語、アラビア語の文字)。63488 文字が 3バイトでエンコードされます(中国語や日本語など)。残りの 2147418112 文字は 4 ～ 6 バイトを使ってエンコードすることができます(まだ割り当てられていません)。UTF-8 に関する詳細は `<tt>man 7 utf-8</tt>' を実行してください。(manpage は ldpman-1.20 パッケージに含まれています) <tag>UCS-2</tag>  全ての文字は 2 バイトで表現されます。このエンコーディングでは Unicodeの始めの 65536 文字だけを表現できます。 <tag>UTF-16</tag>  これは UCS-2 の拡張で 1112064 の Unicode 文字を表現することができます。 Unicode の始めの 65536 文字は 2 バイトで、残りは 4 バイトで表現されます。 <tag>UCS-4</tag>  全ての文字は 4 バイトで表現されます。 </descrip>  テキストをエンコードするのに必要となる容量(ヨーロッパの言語では 1 文字あたり 8ビットで、中国語、日本語、韓国語ではより多くのビット数)を、現在使用されているエンコーディングと比べたものが以下になります。これはディスクで使用する容量や、ネットワークでのダウンロード速度に影響します（圧縮をしていない場合）。 <descrip> <tag>UTF-8</tag>  US ASCII なら変化なし、ISO-8859-1 なら数パーセント増え、中国語、日本語、韓国語では 1.5 倍、ギリシャ文字やキリル文字では 2 倍になります。  <tag>UCS-2 および UTF-16</tag> 中国語、日本語、韓国語では変化なし、ASCII、ISO-8859-1、ギリシャ文字、キリル文字では 2 倍になります。 <tag>UCS-4</tag>  中国語、日本語、韓国語では 2倍、ASCII、ISO-8859-1、ギリシャ文字、キリル文字では 3 倍になります。 </descrip>  UCS-2, UTF-16, UCS-4 で US やヨーロッパの文書を書く場合にはASCII や ISO-8859-1 で書いたときよりもサイズが大きくなることがあるため、それらのエンコーディングが広く使われることはなさそうです。 Microsoft の Win32 API は UCS-2 エンコーディングを(少なくとも) 1995 年からサポートしていますが、UCS-2は文書を記述するのに広く使われてはいません。日本ではシフト JIS がいまだ一般的です。  一方、US やヨーロッパの利用者にはペナルティがなく、また多くのテキスト操作を行うプログラムは UTF-8 サポートのための変更が必要ないので、UTF-8 は広く使われる可能性があります。  これから、テキストのエンコーディングとして UTF-8 を使うように Linux システムを変更する方法について説明していきます。 <sect2>  C/C++ 開発者への補足説明  Microsoft が Win32 API で取っているアプローチでは、開発者が Unicode 版のプログラムを作成することは簡単です。"#define UNICODE" をプログラムの先頭で宣言して、コンパイルエラーがなくなるまで `<tt>char</tt>' を `<tt>TCHAR</tt>' へ変更します。この方法の問題は、最終的に 2 つのバージョンのプログラムができてしまうことです。1 つは UCS-2 のテキストを扱えますが、8 ビットのエンコーディングは駄目です。もう 1 つは旧来の 8 ビットエンコーディングしか扱えません。  さらに UCS-2 と UCS-4 にはエンディアンの問題があります。The Internet Assigned Numbers Authority (IANA) character set registry <htmlurl url="http://www.isi.edu/in-notes/iana/assignments/character-sets" name="http://www.isi.edu/in-notes/iana/assignments/character-sets"> は ISO-10646-UCS-2 についてこのように述べています：<quote>「これにはネットワークバイトオーダーを指定する必要がある: 標準は定められていない」 </quote> ネットワークバイトオーダーはビッグエンディアンです。また RFC 2152 に、より明確に記述されています：「ISO/IEC 10646-1:1993(E) にはUCS-2 の文字がオクテットで表現される時には、最も大きいオクテットが始めに来ると示されています」ところが Microsoftは自社の C/C++ 開発ツールではマシン依存のエンディアン(つまり intel x86 系のプロセッサではリトルエンディアン) を使用することと、ドキュメントの始めにバイトオーダーのマークもしくは統計的検出法(statistical heuristics)を使用することを推奨しています。 (訳注： heuristics とは例えば、バイトオーダが入れ替わっているような状態では何の手がかりもないと、どんなキャラクタセットかわからない。でも例えば日本語の文章の場合には統計的に、'、' や `。' などはそれなりの頻度で現れると予測されるので、もしそうなら日本語じゃないかと判断するようなことです)  それに対して UTF-8 のアプローチでは、`<tt>char*</tt>' を C の標準の文字列型のままとしています。結果としてプログラムは ASCII テキストを環境変数に関わらず扱うことができ、また LANG 環境変数を指定すれば ISO-8859-1 と UTF-8 でエンコードされたテキストをも扱うことができます。 <sect1>  関連文書  Markus Kuhn の最新リソースリスト： <itemize> <item> <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/unicode.html" name="http://www.cl.cam.ac.uk/~mgk25/unicode.html"> <item> <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/ucs-fonts.html" name="http://www.cl.cam.ac.uk/~mgk25/ucs-fonts.html"> </itemize>  Roman Czyborra の Unicode、UTF-8 および UTF-8 対応プログラムのオーバービュー： <htmlurl url="http://czyborra.com/utf/#UTF-8" name="http://czyborra.com/utf/#UTF-8">  UTF-8 ファイルの例： <itemize> <item>  Markus Kuhn の ucs-fonts パッケージ <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/ucs/examples/quickbrown.txt" name="quickbrown.txt">, <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt" name="UTF-8-test.txt">, <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-demo.txt" name="UTF-8-demo.txt">. <item> <htmlurl url="ftp://ftp.cs.su.oz.au/gary/x-utf8.html" name="ftp://ftp.cs.su.oz.au/gary/x-utf8.html"> <item>  Kosta Kostis の trans-1.1.1 パッケージの <tt>iso10646</tt> ファイル <htmlurl url="ftp://ftp.nid.ru/pub/os/unix/misc/trans111.tar.gz" name="ftp://ftp.nid.ru/pub/os/unix/misc/trans111.tar.gz"> <item> <htmlurl url="ftp://ftp.dante.de/pub/tex/info/lwc/apc/utf8.html" name="ftp://ftp.dante.de/pub/tex/info/lwc/apc/utf8.html"> <item> <htmlurl url="http://www.cogsci.ed.ac.uk/~richard/unicode-sample.html" name="http://www.cogsci.ed.ac.uk/~richard/unicode-sample.html"> </itemize> <sect>  表示の設定  ここでは、既に Linux のコンソールと X11 の設定を、使用しているキーボードとロケールにあわせてあると仮定します。この方法はデンマーク/インターナショナル HOWTO や他の国(Finnish(フィンランド), French(フランス), German(ドイツ), Italian (イタリア), Polish(ポーランド), Slovenian(スロベニア), Spanish(スペイン), Cyrillic(キリル), Hebrew(ヘブライ), Chinese(中国), Thai(タイ), Esperanto(エスペラント)) の HOWTO で説明されています。ただ、 Thai HOWTO で説明されている方法には従わないでください。ISO-8859-1 の文字(U0000..U00FF) を使用してもタイ語の文字 (U0E01..U0E5B) になってしまいます。これは Unicode に変更するときに問題となります。 (訳注：日本語版のほとんどのディストリビューションでは既に設定済みですが、もしまだであれば JF プロジェクトにある Keyboard-and-Console-HOWTO が役にたつでしょう) <sect1>  Linux コンソール  ここでは Linux コンソールについてあまり多くは述べません。私が xdm を動かしていないマシンを使う場合、単にログイン名とパスワードを入力して "xinit" を実行するだけだからです。  kbd-0.99 パッケージ <htmlurl url="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/kbd-0.99.tar.gz" name="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/kbd-0.99.tar.gz"> と、それをかなり拡張したバージョンである console-tools-0.2.2 パッケージ <htmlurl url="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/console-tools-0.2.2.tar.gz" name="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/console-tools-0.2.2.tar.gz"> には kbd-0.99/src/ (もしくは console-tools-0.2.2/screenfonttools/)ディレクトリに二つのプログラム `unicode_start' と `unicode_stop' があります。 `unicode_start'を呼びだすと、コンソールのスクリーンへの出力は UTF-8と解釈されます。またキーボードは Unicode モード("man kbd_mode" を参照)に入ります。このモードでは、Alt-x1 ～ Alt-xn(x1 ～ xn はテンキー上の数値です) で入力された Unicode 文字は UTF-8 となります。あなたのキーボードに (正確にはあなたの通常のキーマップに) 非 ASCII 文字のキー(たとえばドイツ語のウムラウト)があり、その文字をキャップスロックしたい場合には、カーネルパッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.2.9-keyboard.diff" name="linux-2.2.9-keyboard.diff"> もしくは <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.3.12-keyboard.diff" name="linux-2.3.12-keyboard.diff"> をあてる必要があります。    スクリーン上で同時に異なった種類の文字を表示する場合、Unicode コンソールのためのフォントが必要となります。<htmlurl url="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/kbd-0.99.tar.gz" name="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/kbd-0.99.tar.gz"> および <htmlurl url="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/console-data-1999.08.29.tar.gz" name="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/console-data-1999.08.29.tar.gz"> パッケージに含まれているフォント(LatArCyrHeb-{08,14,16,19}.psf) はラテン語、キリル文字、ヘブライ語、アラビア語の文字をカバーします。つまりこれ一つで ISO 8859 の 1,2,3,4,5,6,8,9,10 をカバーします。インストールするには /usr/lib/kbd/consolefonts/ へコピーし、<newline> "/usr/bin/setfont /usr/lib/kbd/consolefonts/LatArCyrHeb-14.psf" を実行します。   カット & ペーストを UTF-8 のコンソールで動作させたいのであれば、 Edmund Thomas Grimley Evans と Stanislav Voronyi によるパッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.3.12-console.diff" name="linux-2.3.12-console.diff"> が必要になります。 <sect1>  X11 外国語フォント  キリル文字、中国語、日本語などのフォントのインストールをためらう理由はありません。それらが Unicode フォントではないとしても、Unicode の文書を表示する時に役立ちます。少くとも Netscape Communicator 4 と Java は、可能な時には外国語のフォントを利用します。  以下は、フォントをインストールする時に便利なプログラムです。 <itemize> <item> "mkfontdir directory"  は X サーバーが使用する font ディレクトリを準備します。これはディレクトリにフォントをインストールした後に実行する必要があります。 <item> "xset fp+ directory"  は X サーバーのカレントフォントパスに directory を追加します。恒久的にディレクトリを追加するのであれば、/etc/XF86Config ファイルの "Files" セクションに "FontPath" 行を追加します。 <item> "xset fp rehash"  を mkfontdir を呼びだしたあとに実行する必要があります。これはフォントパスを現在値にリセットし、カレントフォントパスのフォントデータベースを X サーバに再読み込みさせます。  <item> "xfontsel"  で、インストールされている各種フォントのプロパティをマウスで選択してブラウズすることができます。 <item> "xlsfonts -fn fontpattern"  は fontpattern にマッチしている全てのフォントをリスト表示し、各種フォントのプロパティを表示します。"xlsfonts -ll -fn font" を実行すると、フォントプロパティ CHARSET_REGISTRY と CHARSET_ENCODING をリスト表示します。これらのプロパティはフォントのエンコーディングを決定します。 <item> "xfd -fn font"  はページ毎に font を表示します。 </itemize>  次のフォントは自由に利用できます(完全なリストではありません)： <itemize> <item>  XFree86 に含まれるもの。別のパッケージになってるかもしれません。例えば SuSE には普通の 75dpi フォントのみが基本の `xf86' パッケージに入っています。その他のフォントはパッケージ `xfnt100', `xfntbig', `xfntcyr', `xfntscl' に含まれています。  <item>  <htmlurl url="ftp://ftp.gnu.org/pub/gnu/intlfonts/intlfonts-1.2.tar.gz" name="ftp://ftp.gnu.org/pub/gnu/intlfonts/intlfonts-1.2.tar.gz"> の Emacs 国際フォント。既に言及されているように、GNU Emacs より XEmacs を好む場合や Emacs を使わない場合であっても、これらは役に立ちます。 </itemize> <sect1>  X11 Unicode フォント  アプリケーションで異なる用字(例えばキリル文字やギリシャ文字)のテキストを同時に表示するには、異なる X フォントを使うことによって可能になります。これは Netscape Communicator と Java が行なっていることです。ですがこの方法はより複雑です。プログラマーは `Font' と `XFontStruct' を利用するかわりに `XFontSet' を扱わなければならなく、その上さらにフォントセットの全てのフォントが同じ文字幅を持っているわけではないからです。 <itemize> <item>  Markus Kuhn は Unicode でエンコードされた固定幅の 75dpi フォントを作りました。これはラテン語、ギリシャ語、キリル文字、アルメニア語、グルジア語、ヘブライ語、記号をカバーしています。つまり ISO 8859 の 1,2,3,4,5,7,8,9,10,13,14,15 全てを 1 つでカバーします。このフォントは xterm を utf-8 モードで実行する必要があります。 <htmlurl url="http://www.cl.cam.ac.uk/~mgk25/download/ucs-fonts.tar.gz" name="http://www.cl.cam.ac.uk/~mgk25/download/ucs-fonts.tar.gz"> <item>  Roman Czyborra は Unicode でエンコードされた 8x16 / 16x16 幅 75dpi フォントを作りました。これは Unicode の非常に多くの部分をカバーしています。 unifont.hex.gz と hex2bdf を <htmlurl url="http://czyborra.com/unifont/" name="http://czyborra.com/unifont/"> からダウンロードしてください。また、これは固定幅ではありません：ヨーロッパの文字は 8 ピクセル幅、中国語などの文字は 16 ピクセルです。次のようにして、インストールを行ないます。 <tscreen><verb> $ gunzip unifont.hex.gz $ hex2bdf < unifont.hex > unifont.bdf $ bdftopcf -o unifont.pcf unifont.bdf $ gzip -9 unifont.pcf # cp unifont.pcf.gz /usr/X11R6/lib/X11/fonts/misc # cd /usr/X11R6/lib/X11/fonts/misc # mkfontdir # xset fp rehash </verb></tscreen> <item>  Primoz Peterlin は ETL ファミリーのフォントを作りました。これはラテン語、ギリシャ語、キリル文字、アルメニア語、グルジア語、ヘブライ語をカバーしています。<newline> <htmlurl url="ftp://ftp.x.org/contrib/fonts/etl-unicode.tar.gz" name="ftp://ftp.x.org/contrib/fonts/etl-unicode.tar.gz"><newline> インストールするには "bdftopcf" プログラムを使用します。 </itemize> <sect1>Unicode xterm  xterm は X11R6 と XFree86 の 1 部なのですが、Tom Dickey により別にメンテナンスされています。 <htmlurl url="http://www.clark.net/pub/dickey/xterm/xterm.html" name="http://www.clark.net/pub/dickey/xterm/xterm.html"><newline> 新しいバージョン(パッチレベル 109 以降)は、xterm で動作しているアプリケーションにキーストロークを送る前にキーストロークを UTF-8 にコンバートする機能と、アプリケーションの出力する Unicode 文字を UTF-8 のバイトシーケンスとして表示する機能をサポートしています。  UTF-8 をサポートする xterm を実行するには、次のようにします。 <itemize>  <htmlurl url="http://www.clark.net/pub/dickey/xterm/xterm.tar.gz" name="http://www.clark.net/pub/dickey/xterm/xterm.tar.gz"> を入手 <item>  "./configure --enable-wide-chars ..." を実行して設定を行ない、コンパイルおよびインストールを行なう <item>  Unicode 固定幅フォントをインストールする。Markus Kuhn の ucs-fonts.tar.gz(上記を参照)はこのために使えるでしょう。 <item>  "xterm -u8 -fn fixed" を実行します。"-u8" オプションは Unicode と UTF-8 のハンドリング機能を有効にします。"fixed" で指定するフォントは Markus Kuhn の Unicode フォントです。 <item>  Markus Kuhn の ucs-fonts パッケージに含まれるサンプルファイルを覗いてみると、ギリシャ語やロシア語などの文字が見えるはずです。 <tscreen><verb> $ cd .../ucs-fonts $ cat quickbrown.txt $ cat utf-8-demo.txt </verb></tscreen>  <item>  xterm の起動時から UTF-8 をハンドリングする機能を有効にするには、 XTerm*utf8: 1 という行を $HOME/.Xdefaults に追加します(自分自身の設定だけを変える場合)。システム全体の設定である /usr/X11R6/lib/X11/app-defaults/XTerm を変更することはお勧めしません。 XFree86 の新しいバージョンにアップグレードした際に、変更が消されてしまうからです。 (訳注：個人的には逆にアップグレードまでは大丈夫なので、システムワイドな設定の方を好みます) <item>  フォントも変更するのであれば、 <tscreen><verb> *VT100*font: フォント名 </verb></tscreen> のような行が $HOME/.Xdefaults に必要となります。 "fixed" の場合には指定する必要はありません。 </itemize>  Robert Brady <htmlurl url="mailto:rwb197@ecs.soton.ac.uk" name="<rwb197@ecs.soton.ac.uk>">, による、倍のサイズのワイド文字 (CJK の表意文字など)の実装、結合(combine)をするためのパッチは<htmlurl url="http://www.ecs.soton.ac.uk/~rwb197/xterm/" name="http://www.ecs.soton.ac.uk/~rwb197/xterm/"> です。  これは xterm パッチレベル 120 <htmlurl url="http://www.clark.net/pub/dickey/xterm/xterm-120.tgz" name="http://www.clark.net/pub/dickey/xterm/xterm-120.tgz"> ベースです。次のような設定で使うのがよいでしょう。 <tscreen><verb> *VT100*font: -Misc-Fixed-Medium-R-Normal--18-120-100-100-C-90-ISO10646-1 *VT100*wideFont: -Daewoo-Gothic-Medium-R-Normal--18-18-100-100-M-180-ISO10646-1 </verb></tscreen> <sect1>  その他  Linux のコンソールや xterm が UTF-8 モードかどうかをテストする簡単なプログラム testUTF-8.c と testUTF8.c が、Ricardas Cepas のパッケージ <htmlurl url="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/x-lt-1.18.tar.gz" name="ftp://sunsite.unc.edu/pub/Linux/system/keyboards/x-lt-1.18.tar.gz"> にあります。 <sect>  ロケール設定 <sect1>  ファイルとカーネル  すでに、どのような Unicode 文字でもファイル名として使えるようになっています。カーネルやファイルユーティリティの修正は必要ありません。カーネル内でのファイル名はヌル文字や / を含まない限り何でもかまいません(/ はサブディレクトリの区切りに使われているからです)。UTF-8 を使用してエンコードされる時に、非 ASCII 文字がヌル文字や / にエンコードされることはありません。ファイルやディレクトリの名前が文字数よりも多くのバイト数を占めるだけです。例えば 5 つのギリシャ文字からなるファイル名はカーネルからは 10 バイトのファイル名として見えます。カーネルはこれらがギリシャ文字で表示されるということを知りませんし、知る必要もありません。  これが基本原理です。ファイルが Linux だけで使われるのであれば。他の OS から使用されるファイルシステムのためには、ファイル名を UTF-8 と相互にコンバートするマウントオプションがあります。 <itemize> <item>  "vfat" ファイルシステムにはマウントオプション "utf8" があります。 <htmlurl url="file:/usr/src/linux/Documentation/filesystems/vfat.txt" name="file:/usr/src/linux/Documentation/filesystems/vfat.txt"> を見てください。デフォルト("iso8859-1" です)ではなく "iocharset" マウントオプションを指定した場合には "utf8"を使用するどうかに関わらず、結果には一貫性がありません。ですから "iocharset" マウントオプションはお勧めしません。 <item>  "msdos"、"umsdos" ファイルシステムも同じマウントオプションを持っていますが、何も起こらないようです。 <item>  "iso9660" ファイルシステムにはマウントオプション "utf8" があります。 <htmlurl url="file:/usr/src/linux/Documentation/filesystems/isofs.txt" name="file:/usr/src/linux/Documentation/filesystems/isofs.txt"> を見てください。 <item>  Linux 2.2.x カーネル以降は、"ntfs" ファイルシステムにマウントオプション "utf8" があります。<htmlurl url="file:/usr/src/linux/Documentation/filesystems/ntfs.txt" name="file:/usr/src/linux/Documentation/filesystems/ntfs.txt"> を見てください。 </itemize>  他のファイルシステム(nfs, smbfs, ncpfs, hpfs など)ではファイル名をコンバートしません。つまりそれらの OS がサポートしている時に限り、UTF-8 でエンコーディングされた Unicode のファイル名をサポートします。あとで再マウントする時にマウントオプションを有効にするために /etc/fstab の関係する行の 4 番目のカラムにオプションを追加するとよいでしょう。  <sect1>  tty とカーネル  tty は 2 つのプログラム間にあるいわゆる双方向パイプのような物で、文字のエコーやコマンドラインでの編集といった素敵な機能を持っています。xterm で引数なしの "cat" コマンドを実行すると何行でも入力や編集ができ、また各行はエコーバック(訳注：入力した文字のエコー表示)されます。カーネルの編集機能は正常に動作しません。特に、バックスペースキーとタブキーは正しく扱われません。  この問題を修正するには、次のようにします。 <itemize> <item>  次のうち対応するカーネルパッチをあて、カーネルの再コンパイルをします。<newline> <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.0.35-tty.diff" name="linux-2.0.35-tty.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.2.9-tty.diff" name="linux-2.2.9-tty.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.3.12-tty.diff" name="linux-2.3.12-tty.diff"> <item>  glibc2 を使っているのであれば、パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/glibc211-tty.diff" name="glibc211-tty.diff"> をあてて libc の再コンパイルを行います。冒険が好きでなければ、既にインストールされているインクルードファイルにパッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/glibc-tty.diff" name="glibc-tty.diff"> をあてるだけで充分です。 <item>  パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/stty.diff" name="stty.diff">を GNU sh-utils-1.16b にあてて "stty" プログラムのリビルドを行ない、"stty -a" と "stty iutf8" を使ってテストをします。 <item>  "stty iutf8" コマンドを "unicode_start" スクリプトに、 "stty -iutf8" コマンドを "unicode_stop" スクリプトに追加します。 <item>  パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/xterm.diff" name="xterm.diff"> を xterm-109 にあてて "xterm" のリビルドを行い、 "xterm - u8" や "xterm +u8" を実行して、そこで "stty -a" や "cat" を動かしてテストします。 </itemize>  rlogin や telnet をしてもこの修正を有効にし続けるには次のことをする必要があります： <itemize> <item>  環境変数 TERM に新しい値("linux" へのエイリアスとして "linux-utf8" を、 "xterm" へのエイリアスとして "xterm-utf8")を定義します。システムに ncurses ライブラリと /usr/lib/terminfo(または /usr/share/terminfo) がある場合には、 <tscreen><verb> $ tic linux-utf8.terminfo $ tic xterm-utf8.terminfo </verb></tscreen>  を root 以外で実行することによって行います。これは terminfo エントリを $HOME/.terminfo ディレクトリに作ります。ここに <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-utf8.terminfo" name="linux-utf8.terminfo"> と <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/xterm-utf8.terminfo" name="xterm-utf8.terminfo"> があります。この作業を root で行うことはお勧めしません。実行すると /usr/lib/terminfo に terminfo エントリを作成してしまいますが、これはシステムをアップグレードした時に消されてしまうかもしれません。システムに /etc/termcap ファイルがある場合には、そのファイルも編集した方がよいでしょう。linux と xterm エントリをコピーし、それぞれに新しい名前 "linux-utf8" と "xterm-utf8" を付けます。例はこの <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/termcap.diff" name="termcap.diff"> です。 <item>  コンソールから "unicode_start" や "unicode_stop" を呼びだす度に、それぞれ "export TERM=linux-utf8" や "export TERM=linux" も実行してください。 <item>  パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/xterm2.diff" name="xterm2.diff">を xterm-109 にあてて "xterm" をリビルドし、 /usr/X11R6/lib/X11/app-defaults/XTerm と $HOME/.Xdefaults から全ての "XTerm*termName" 行を取り除きます。これで xterm が UTF-8 モードで実行されている時の TERM 変数は "xterm" の代わりに "xterm-utf8" となっています。 <item>  パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/netkit.diff" name="netkit.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/netkitb.diff" name="netkitb.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/telnet.diff" name="telnet.diff"> をあてて "rlogind" と "telnetd" をリビルドします。これで rlogin と telnet は TERM 変数が "linux-utf8" や "xterm-utf8" である時には、いつでも tty を UTF-8 編集モードにすることができます。 </itemize> <sect1>  一般的なデータ変換  ローカルでのエンコーディング(おそらく ISO-88591 や EUC)がされているテキストを UTF-8 にコンバートするプログラムが必要になるはずです。(代替としては同じマシン上で、それぞれ異なったエンコーディングのテキストを使い続けることですが、これは長期的に見るとあまり楽しいことではありません) そのようなプログラムの 1 つに `iconv' があります。これは glibc-2.1 に同梱されており、次のようにして簡単に使えます。 <tscreen><verb> $ iconv --from-code=ISO-8859-1 --to-code=UTF-8 < old_file > new_file </verb></tscreen>  この <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/i2u.sh" name="i2u.sh"> (ISO を UTF にコンバート) と <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/u2i.sh" name="u2i.sh"> (UTF を ISO にコンバート)は、便利なスクリプトです。いま利用している 8 ビット文字セットに合うように修正してください。  glibc-2.1 や iconv がインストールされていなければ、GNU recode 3.5 を代わりに使用することができます。"i2u" <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/i2u_recode.sh" name="i2u_recode.sh"> は"recode ISO-8859-1..UTF-8" と、"u2i" <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/u2i_recode.sh" name="u2i_recode.sh"> は "recode UTF-8..ISO-8859-1" として行います。 <htmlurl url="ftp://ftp.iro.umontreal.ca/pub/recode/recode-3.5.tar.gz" name="ftp://ftp.iro.umontreal.ca/pub/recode/recode-3.5.tar.gz"> <htmlurl url="ftp://ftp.gnu.org/pub/gnu/recode/recode-3.5.tar.gz" name="ftp://ftp.gnu.org/pub/gnu/recode/recode-3.5.tar.gz">注意： GNU recode 3.5 以上が必要となります。GNU recode 3.5 のコンパイルを glibc2 が存在しないプラットフォーム(つまり古い Linux システム)で行なうには、-- disable-nls を指定して configure する必要があります。指定しない場合にはリンクに失敗します。 CJK をサポートする開発版の新しい GNU recode はここから入手できます。 <htmlurl url="http://www.iro.umontreal.ca/contrib/recode/" name="http://www.iro.umontreal.ca/contrib/recode/">  CLISP を代わりに使用することもできます。この "i2u" <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/i2u.lsp" name="i2u.lsp"> と "u2i" <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/u2i.lsp" name="u2i.lsp"> は Lisp で書かれています。注意： CLISP の 1999 年 7 月以降のバージョンが必要です。<htmlurl url="ftp://clisp.cons.org/pub/lisp/clisp/source/clispsrc.tar.gz" name="ftp://clisp.cons.org/pub/lisp/clisp/source/clispsrc.tar.gz">  GNU record よりも機能が劣りますが、その他のデータコンバートプログラムには `trans' <htmlurl url="ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/trans113.tar.gz" name="ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/trans113.tar.gz">、 Plan9 operating system の `tcs' <htmlurl url="ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/tcs.tar.gz" name="ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/tcs.tar.gz">、 G. Adam Stanislav の作成した `utrans'/`uhtrans'/`hutrans' <htmlurl url="ftp://ftp.cdrom.com/pub/FreeBSD/distfiles/i18ntools-1.0.tar.gz" name="ftp://ftp.cdrom.com/pub/FreeBSD/distfiles/i18ntools-1.0.tar.gz"> <htmlurl url="mailto:adam@whizkidtech.net" name="<adam@whizkidtech.net>"> があります。  他の文字セットから UTF-8 へのファイルのコンバートをたびたび行なう時には半自動のツール <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/to-utf8" name="to-utf8"> を使うことができます。これはファイルの非 ASCII 文字をユーザーに表示し、ファイルの元の文字セットをユーザーに選択させることによりファイルを UTF-8 にコンバートすることができます。 <sect1>  ロケールの環境変数  次の環境変数にロケール名などをセットすることができます。 <descrip> <tag>LANGUAGE</tag>  LC_MESSAGES (の設定)を上書きします。GNU gettext だけが使用します。 <tag>LC_ALL</tag>  他の LC_* 変数で指定されている全ての設定を上書き(他の設定よりこの指定が優先)します。 <tag>LC_CTYPE, LC_MESSAGES, LC_COLLATE, LC_NUMERIC, LC_MONETARY, LC_TIME</tag>  それぞれ、次の内容を設定する変数です：文字の種類とエンコーディング、メッセージ表示に使用する言語、ソートのルール、数字の書式、通貨の書式、日付と時間の表示 <tag>LANG</tag>  全ての LC_* 変数のデフォルト値です。 LC_* を指定しない場合には、LANG の値が適用されます。 </descrip>  (詳細は `<tt>man 7 locale</tt>' を参照してください)  それぞれの LC_* と LANG 変数には、次のような形でロケール名を指定することができます。 <quote> language[_territory[.codeset]][@modifier] </quote>  ここで language は <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/ISO_639.html" name="ISO 639"> language code(小文字)、territory は <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/ISO_3166.html" name="ISO 3166"> country code(大文字)、codeset は文字セットを意味し、modifier はその他の特別な属性(例えば、方言や標準とは違った綴りなど)を表しています。  LANGUAGE には、複数のロケール名をコロンで区切って指定することができます。  システムやアプリケーションに UTF-8 を使用していると指定するためには、ロケール名にコードセットのサフィックスとして UTF-8 を追加する必要があります。例えば、 <tscreen><verb> LANGUAGE=de:fr:en LC_CTYPE=de_DE </verb></tscreen>  を使用しているのであれば、このように変更します。 <tscreen><verb> LANGUAGE=de.UTF-8:fr.UTF-8:en.UTF-8 LC_CTYPE=de_DE.UTF-8 </verb></tscreen> <sect1>  ロケールサポートファイルの作成  glibc-2.1、glibc-2.1.1、glibc-2.1.2 のどれかをインストールしている場合には、まず "localedef --help" を使用して、文字マップのシステムディレクトリが /usr/share/i18n/charmaps かどうかをチェックします。次に /usr/share/i18n/charmaps/UTF8 ファイルに <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/glibc21.diff" name="glibc21.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/glibc211.diff" name="glibc211.diff">, <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/glibc212.diff" name="glibc212.diff"> の対応するパッチをあてます。そして、例えばこのようにして利用する UTF-8 ロケール用のサポートファイルを作成します。 <tscreen><verb> $ localedef -v -c -i de_DE -f UTF8 /usr/share/locale/de_DE.UTF-8 </verb></tscreen>  通常は country サフィックスなしの "de" や "fr" といったロケールを作成する必要はありません。これらのロケールは大抵の場合には LANGUAGE 変数から使われるだけで、LC_* 変数には使われないからです。また、LANGUAGE が使われるのは LC_MESSAGES の設定を上書きする場合だけです。 <sect1>  C ライブラリにサポートを追加する  glibc-2.2 はマルチバイトのロケール、特に上記で作成された UTF-8 ロケールをサポートします。ですが glibc-2.1 や glibc-2.1.1 は実際にはマルチバイトをサポートしません。つまり上記で作成した /usr/share/locale/de_DE.UTF-8/* ファイルの実際の効果は、`setlocale(LC_ALL,"")' が環境変数の設定により ".UTF-8" サフィックスを取り除かずに "de_DE.UTF-8" を返すだけです。  UTF-8 ロケールのサポートを追加するには `libutf8_plug.so' ライブラリ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/libutf8-0.6.2.tar.gz" name="libutf8-0.6.2.tar.gz"> をビルドして、インストールします。そしてインストールされたライブラリを指すように LD_PRELOAD 環境変数をセットします。 <tscreen><verb> $ export LD_PRELOAD=/usr/local/lib/libutf8_plug.so </verb></tscreen>  これで、この環境変数がセットされて起動された全てのアプリケーションで libutf8_plug.so の関数が /lib/libc.so.6 のオリジナルのものより優先されます。 LD_PRELOAD に関する詳細は "man 8 ld.so" を参照してください。  ここで述べた全てのことは、glibc-2.2 が出ればもはや必要なくなります。 <sect1>  メッセージカタログのコンバート  さて新しいロケールの中身を埋めましょう。次の /bin/sh コマンドはメッセージカタログを UTF-8 フォーマットにコンバートすることができます。これは root で実行する必要があり、また GNU gettext-0.10.35 の `msgfmt' と `msgunfmt' がインストールされている必要があります。<htmlurl url="convert-msgcat.sh" name="convert-msgcat.sh">  これも glibc-2.2 が出ればもはや必要なくなります。その時までには gettext は iconv や librecode を使用して、文字列を適切に元の文字セットからユーザーの文字セットへコンバートするでしょうから。 <sect>  アプリケーション固有の情報 <sect1>  ネットワーク <sect2>rlogin  は上記で述べたパッチでうまく動作します。 <sect2>telnet  デフォルトでは telnet は 8 ビットクリーンではありません。Unicode のキーストロークをリモートのホストへ送るためには、telnet を "outbinary" モードにセットする必要があります。そのためには次の 2 つの方法があります。 <tscreen><verb> $ telnet -L <host> </verb></tscreen>  もしくは <tscreen><verb> $ telnet telnet> set outbinary telnet> open <host> </verb></tscreen>  さらに上記で述べたパッチも使用してください。 <sect1>  ブラウザ <sect2>Netscape  Netscape 4.05 以降では UTF-8 でエンコードされた HTML 文書を表示することができます。そのためには全ての文書で <head> と </head> タグの間にこのような行が必要です。 <tscreen><verb> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> </verb></tscreen>  Netscape 4.05 以降では、バイトオーダーのマークが付いた UCS-2 エンコーディングの HTML やテキストファイルも表示できます。 <htmlurl url="http://www.netscape.com/computing/download/" name="http://www.netscape.com/computing/download/"> <sect2>lynx  lynx2.8 にはオプション設定用の画面('O' キーを押下)があり、ここで表示する文字セットを設定することができます。UTF-8 モードの xterm や Linux コンソールで実行している時には、これを "UNICODE UTF-8" にセットします。  ここでもう一度。全ての文書には <head> と </head> タグの間に次のような行が必要です。 <tscreen><verb> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> </verb></tscreen>  UTF-8 でエンコードされたテキストファイルを見るときには、コマンドラインオプション "-assume_local_charset=UTF-8"(file:/... の URL だけに影響を及ぼします)、もしくは "-assume_charset=UTF-8"(全ての URL に影響を及ぼします)も必要となります。lynx-2.8.2 ではオプション設定画面('O' キーを押下)で "仮定する文字セット/assumed document character set" を "utf-8" に変更することもできます。 (訳注：設定画面のオプション名(日本語・英語共に)は、Kondara MNU/Linux 1.0 に同梱されている lynx 2.8.2-3k1 で確認しました）  オプション設定画面には "使用したい文書のキャラクターセット/preferred document character set" オプションもありますが、少なくとも apache-1.3.0 における file:/... URL と http://... URL では何の効果もありません。  文字のスペーシングおよびラインブレークには問題があります(x-utf8.html のロシア語のセクションや utf-8-demo.txt を見てみてください)。  さらに lynx-2.8.2 では --enable-prettysrc で設定されている場合、表示文字セットが "UNICODE UTF-8" にセットされているとカラー表示が正常に動作しません。これは簡単なパッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/lynx282.diff" name="lynx282.diff"> で修正することができます。  Lynx 開発者曰く、「UTF-8 でのスクリーン表示をするために普段 lynx を利用する場合であっても、slang ライブラリと -DSLANG_MBCS_HACK オプションでコンパイルすることを依然としてお勧めします」です。 <htmlurl url="ftp://ftp.gnu.org/pub/gnu/lynx/lynx-2.8.2.tar.gz" name="ftp://ftp.gnu.org/pub/gnu/lynx/lynx-2.8.2.tar.gz"> <htmlurl url="http://lynx.browser.org/" name="http://lynx.browser.org/"> <htmlurl url="http://www.slcc.edu/lynx/" name="http://www.slcc.edu/lynx/"> <htmlurl url="ftp://lynx.isc.org/" name="ftp://lynx.isc.org/"> <sect2>  テスト用ページ  ブラウザのためのテストページが、Alan Wood のサイト <htmlurl url="http://www.hclrss.demon.co.uk/unicode/#links" name="http://www.hclrss.demon.co.uk/unicode/#links"> および James Kass のサイト <htmlurl url="http://home.att.net/~jameskass/" name="http://home.att.net/~jameskass/"> にあります。 <sect1>  エディタ <sect2>yudit  Gáspár Sinai の yudit <htmlurl url="http://czyborra.com/yudit/" name="http://czyborra.com/yudit/">は、X Window System 用のすばらしい unicode テキストエディターです。多くの言語やインプットメソッド、ローカルの文字セットへのコンバートをサポートしており、キーボード設定マップを使用することにより、英語キーボードだけで全ての言語でのテキストの入力を行なうことが可能になります。  次の 3 種類のバージョンをコンパイルすることができます： Xlib GUI, KDE GUI, Motif GUI  カスタマイズは非常に簡単です。一般的なカスタマイズは、まずフォントからでしょう。フォントメニューから "Unicode" を選び、コマンド "xlsfonts ' *-*-iso10646-1'" ではまだフォントサイズが適当ではないため、(Markus Kuhn の 13 ピクセル固定フォントにマッチさせるため)フォントサイズ 13 を選択しました。  次にインプットメソッドのカスタマイズを行ないます。インプットメソッドは "Straight", "Unicode", "SGML" がベストの選択でしょう。他のビルトイン・インプットメソッドの詳細は /usr/local/share/yudit/data/ を御覧ください。  次に実行した時にも変更を有効にするためには、$HOME/.yuditrc ファイルを編集してください。  このエディターの基本的な機能は編集、カット & ペースト、検索および置換だけです。アンドゥはありません。 <sect2>mined98  mined98 は Michiel Huisjes, Achim Müller, Thomas Wolff が作った小さなテキストエディターです。<htmlurl url="http://www.inf.fu-berlin.de/~wolff/mined.html" name="http://www.inf.fu-berlin.de/~wolff/mined.html"> これは UTF-8 あるいは 8 ビットの xterm で、UTF-8 や 8 ビットでエンコードされたファイルの編集をすることができます。また Unicode 文字の入力のための強力な機能があります。  UTF-8 モードの xterm や Linux コンソールで実行している時には、環境変数 <tt>utf8_term</tt> をセットするか、もしくは mined をコマンドライン引数 <tt>-U</tt> で起動する必要があります。  mined では 8 ビットや UTF-8 でエンコードされたファイルを編集することができます。デフォルトでは発見的自動検出(autodetection heuristic)を行ないますが、これを使用したくない時は、UTF-8 ファイルを編集する時にはコマンドライン引数 <tt>-u</tt> を、8 ビットエンコーディングされたファイルを編集する時には <tt>+u</tt> を付けて起動します。設定はいつでもエディター内で変更することができます。エンコーディングはメニュー行に("L:h" は 8 ビットで、 "U:h" は UTF-8)表示されています。変更するにはこの文字の始めをクリックしてください。  注意点： <itemize> <item>  ディストリビューションに含まれているバイナリファイルは古く、UTF-8 をサポートしていません。ソースからバイナリをリビルドする必要があります。それから src/mined を /usr/local/bin/mined として、doc/mined.help を /usr/local/man/cat1/mined.1 としてインストールします。そうすれば <tt>ESC h</tt> コマンドでマニュアルを見付けることができます。 <item>  mined は "stty erase" 設定を無視します。バックスペースキーが ASCII コード 127 を send し、また "stty erase ^?" を設定している場合には(これらは正しい設定です)、mined を <tt>-B</tt> 引数で起動する必要があります。これにより、バックスペースキーがカーソルの左の文字を消すようになります。 <item>  "Home", "End", "Delete" キーは動作しません。 </itemize> <sect2>vim  vim(version 5.4m 以降)はマルチバイトロケールをサポートしますが、X library がこのサポート機能を持っている必要があります。また 1 文字を表現するのに最大でも 2 バイトのエンコーディング(ISO-2022 エンコーディングなど)のみであり、UTF-8 はサポートしません。 <sect2>emacs  まず始めに Emacs マニュアルの "International Character Set Support" セクション("International" ノード)を読んでください。特に Emacs を起動するにはコマンド<tscreen><verb> $ emacs -fn fontset-standard </verb></tscreen> を実行する必要があることに注意してください。これにより、多くの国の文字のフォントセットを使うことができます。  Otfried Cheong の emacs-utf パッケージ <htmlurl url="http://www.cs.ust.hk/faculty/otfried/Mule/" name="http://www.cs.ust.hk/faculty/otfried/Mule/"> により "unicode-utf-8" エンコーディングを、宮下尚の Mule-UCS package <htmlurl url="ftp://etlport.etl.go.jp/pub/mule/Mule-UCS/Mule-UCS-0.70.tar.gz" name="ftp://etlport.etl.go.jp/pub/mule/Mule-UCS/Mule-UCS-0.70.tar.gz"> (<htmlurl url="http://riksun.riken.go.jp/archives/misc/mule/Mule-UCS/Mule-UCS-0.70.tar.gz" name="http://riksun.riken.go.jp/archives/misc/mule/Mule-UCS/Mule-UCS-0.70.tar.gz"> にミラーされています)により "utf-8" エンコーディングを Emacs で扱えるようになります。両方のパッケージを同時に利用することもできます。emacs-utf "unicode-utf8" エンコーディングの利点はロードが速く、数学記号やアクセント付きの文字などの非 CJK 文字を表示にするのにより良いフォントを選んでくれることです。Mule-UCS "utf-8" エンコーディングの利点は、ファイルの読み書きだけではなく(M-x で起動する) process buffer でもそのエンコードを利用できることです。 emacs-utf パッケージをインストールするには "utf2mule" プログラムをコンパイルしてunicode.el, muleuni-1.el, unicode-char.el と一緒に $PATH のどこかにインストールし、次の設定を $HOME/.emacs ファイルに追加します。 <tscreen><verb> (setq load-path (cons "/home/user/somewhere/emacs" load-path)) (if (not (string-match "XEmacs" emacs-version)) (progn (require 'unicode) (if (eq window-system 'x) (progn (setq fontset12 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-12-*-*-*-*-*-fontset-standard")) (setq fontset13 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-13-*-*-*-*-*-fontset-standard")) (setq fontset14 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-14-*-*-*-*-*-fontset-standard")) (setq fontset15 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-15-*-*-*-*-*-fontset-standard")) (setq fontset16 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-16-*-*-*-*-*-fontset-standard")) (setq fontset18 (create-fontset-from-fontset-spec "-misc-fixed-medium-r-normal-*-18-*-*-*-*-*-fontset-standard")) ; (set-default-font fontset15) )))) </verb></tscreen>  フォントセットを有効にするには Mule メニューの "Set Font/FontSet" を選択するか、Shift を押しながらマウスの左ボタンをクリックします。Markus Kuhn の 9x15 および 6x13 フォントでは、高さ 15 と 13 のフォントセットが Unicode には最適です。フォントセットを初期のフォントセットとして指定するには、上記のコードの <tt>set-default-font</tt> 行をアンコメントします(コメント(;)を取ります)。  Mule-UCS パッケージをインストールするには <tscreen><verb> $ emacs -batch -l mucs-comp.el </verb></tscreen>  を実行し、作成された <tt>un-define.elc</tt> を適当な所にインストールして、次の行を $HOME/.emacs ファイルに追加します。 <tscreen><verb> (setq load-path (cons "/home/user/somewhere/emacs" load-path)) (if (not (string-match "XEmacs" emacs-version)) (progn (require 'un-define) )) </verb></tscreen>   UTF-8 でエンコードされたファイルをオープンするには、 <tscreen><verb> M-x universal-coding-system-argument unicode-utf8 RET M-x find-file filename RET </verb></tscreen>  あるいは <tscreen><verb> C-x RET c unicode-utf8 RET C-x C-f filename RET </verb></tscreen> を実行します。  (Mule-UCS が好みであれば、unicode-utf8 のかわりに utf-8 を実行します)  shell バッファを UTF-8 I/O で実行するには、下記を実行します。 <tscreen><verb> M-x universal-coding-system-argument utf-8 RET M-x shell RET </verb></tscreen>  (Mule-UCS のみで動作します)  上記は Emacs がターミナルモードではなく、ウィンドウモードの時のみ動作します。  Richard Stallman は将来的に UTF-8 サポートを Emacs に統合しようと計画しています。同じく XEmacs 開発グループもです。  関連文書： <htmlurl url="mailto:golconda@yahoo.co.jp" name="<golconda@yahoo.co.jp>"> のページ "Multilingual Emacs and Unicode" <htmlurl url="http://www.geocities.com/ResearchTriangle/Campus/6475/index.html" name="http://www.geocities.com/ResearchTriangle/Campus/6475/index.html"> <sect2>xemacs  (このセクションは Gilbert Baumann が書きました)  これは Xemacs(のバージョン 20.4 に MULE を設定(configured)した) で UTF-8 エンコードを扱えるようにする方法です。残念ながらソースにパッチをあてる必要があります。  始めに Tomohiko Morioka による、これらのファイルが必要になります。 <htmlurl url="http://turnbull.sk.tsukuba.ac.jp/Tools/XEmacs/xemacs-21.0-b55-emc-b55-ucs.diff" name="http://turnbull.sk.tsukuba.ac.jp/Tools/XEmacs/xemacs-21.0-b55-emc-b55-ucs.diff">  および <htmlurl url="http://turnbull.sk.tsukuba.ac.jp/Tools/XEmacs/xemacs-ucs-conv-0.1.tar.gz" name="http://turnbull.sk.tsukuba.ac.jp/Tools/XEmacs/xemacs-ucs-conv-0.1.tar.gz">  diff ファイルは C のソースの差分です。tar 玉は elisp のコードで、 Unicode との相互変換のための多くのコードテーブルを提供します。diff ファイルの名前からわかるようにこれは XEmacs-21 用ですから、私が使っている XEmacs-20.4 では多少パッチを修正する必要がありました。XEmacs-20.4 のソースとの最も大きな違いは file-coding.[ch] が mule-coding.[ch] となっていたことです。(訳注：tarball(tar 玉や tar ボールと呼ばれます)は、tar で固められたファイルのことです)  (私のように) XEmacs-MULE に慣れていない方へのクイックガイドです：  MULE ではエンコーディングを `coding-system' と呼びます。最も重要なコマンドは、 <tscreen><verb> M-x set-file-coding-system M-x set-buffer-process-coding-system [comint buffers] </verb></tscreen>  と、使用されているエンコーディングを調べる時に `find-file' 関数が使用する変数 `file-coding-system-alist' です。実行後にすぐに私が行なったのは <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/gb-hacks.el" name="これ"> です。  このコードはオープンしようとしているファイルの先頭 600 バイトまで、-*- で始まっている special mode line を探します。"Encoding: xyz;" フィールドがあり、xyz エンコーディング(Emacs では "coding system" ですね)が存在してた場合には、このようにして XEmacs を utf-8 モードにすることができます。 <tscreen><verb> ;;; -*- Mode: Lisp; Syntax: Common-Lisp; Package: CLEX; Encoding: utf-8; -*- </verb></tscreen>   全てがうまく動作したあと、\u03BB(ギリシャ語のラムダ) というマクロを定義しました。  <tscreen><verb> (defmacro \u03BB (x) `(lambda .,x)) </verb></tscreen> <sect2>nedit (工事中)  <sect2>xedit  理論上は xedit はロケールを適切に設定し(上記を参照)、$HOME/.Xdefaults ファイルに "Xedit*international: true" 行を追加すれば UTF-8 ファイルを編集できるはずですが、実際には UTF-8 エンコーディングされた非 ASCII 文字を認識してはいますが、連続した "@" 文字で表示されてしまいます。 <sect2>axe  ロケールを適切に設定し(上記を参照)、$HOME/.Xdefaults ファイルに "Axe*international: true" 行を追加すれば、理論上 axe は UTF-8 ファイルを編集できるはずですが、実際には単に core を吐くだけです。 <sect2>pico (工事中) <sect1>  メーラ  MIME: RFC 2279 は UTF-8 を MIME 文字セットとして定義しています。 MIME は 8 ビットの表示可能な base64 エンコーディングで転送することができます。古い MIME UTF-7 プロポーザル(RFC 2152)は反対されている(deprecated) ため、使用するべきではありません。  1999 年 1 月 1 日以降にリリースされたメールクライアントは UTF-8 エンコードされたメールの送信や表示を行えるはずです。もし扱えない場合には欠陥 (deficient)と思われます。ですがこれらのメールは MIME ラベルである以下の行を含む必要があります。 <tscreen><verb> Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit </verb></tscreen>  MIME ラベルなしで、UTF-8 ファイルを単純に "mail" コマンドにパイプで渡した場合には、正しく扱われません。  メールクライアントの実装者は <htmlurl url="http://www.imc.org/imc-intl/" name="http://www.imc.org/imc-intl/">  や <htmlurl url="http://www.imc.org/mail-i18n.html" name="http://www.imc.org/mail-i18n.html"> に目を通すべきです。  これから個々のメールクライアント(もしくは "mail user agents"(MUA)と呼びます) について見ていきます。 <sect2>pine  パッチのあたっていない pine version 4.10 のはこのようになっています。  Pine は文字セットのコンバートを行いませんが、UTF-8 のテキストウィンドウ (Linux コンソールか xterm)で UTF-8 のメールを閲覧することができます。  通常 Pine は UTF-8 エンコードされたメールを閲覧するたびに、文字セットが異なっていると警告をします。この警告を出さないようにするには S(setup)を選択し、次に C(config)、そして "character-set" の値を UTF-8 に変更します。 Pine は UTF-8 を識別しないため、このオプションは警告表示を抑制する以外には何も行ないません。  Pine の Unicode 文字の認識は非常に限定されていることにも注意してください。ラテン語やギリシャ語の文字は表示しますが、他の種類の Unicode 文字は表示しません。  Robert Brady のパッチ <htmlurl url="mailto:rwb197@ecs.soton.ac.uk" name="<rwb197@ecs.soton.ac.uk>"> <htmlurl url="http://www.ents.susu.soton.ac.uk/~robert/pine-utf8-0.1.diff" name="http://www.ents.susu.soton.ac.uk/~robert/pine-utf8-0.1.diff">  は Pine に UTF-8 サポートを追加します。このパッチによりヘッダや本文のデコード、表示が正常に行われます。このパッチは GNOME の libunicode <htmlurl url="http://cvs.gnome.org/lxr/source/libunicode/" name="http://cvs.gnome.org/lxr/source/libunicode/"> に依存しています。  しかし多くの場合、アラインメントの問題は解消されていません。メールのリプライは文字セットのコンバートを正しく行えず、また pico エディターはマルチバイト文字を扱えません。 <sect2>kmail  (KDE 1.0 の時点では)kmail は UTF-8 メールをまったくサポートしていません。 <sect2>Netscape Communicator  Netscape Communicator の Messenger は、UTF-8 エンコードされたメールの送信や表示を行うことができますが、多少の手作業が必要となります。  UTF-8 エンコードされたメールを送信するためには、メールを作成する前に "Compose" ウィンドウを開き、メニューの "View -> Character Set -> Unicode (UTF-8)" を選択します。その後メールの作成、送信を行います。  UTF-8 でエンコードされたメールを受け取った場合、Netscape は残念ながら正しく UTF-8 で表示しません。メールが UTF-8 でエンコーディングされていると表示することすらできません。手動でメニューの "View -> Character Set -> Unicode (UTF-8)" を選択する必要があります。  Netscape は UTF-8 のメールを表示するために別のフォントを使用します。フォントの設定は "Edit -> Preferences -> Fonts" ダイアログで調整できますから、 "Unicode" フォントカテゴリーを選択します。 <sect2>emacs (rmail, vm) (工事中) <sect2>mutt  mutt-1.0 <htmlurl url="http://www.mutt.org/" name="http://www.mutt.org/">  の UTF-8 サポートは原始的なものだけです。UTF-8 を完全にサポートするための Edmund Grimley Evans のパッチがあります。 <htmlurl url="http://www.rano.demon.co.uk/mutt.html" name="http://www.rano.demon.co.uk/mutt.html"> <sect1>  テキスト操作 <sect2>groff  伝統的な Unix テキスト操作システム troff/nroff の GNU 版である groff は UTF-8 でフォーマットされたテキストを出力できます。このためには最新のスナップショット (<htmlurl url="http://groff.ffii.org/" name="http://groff.ffii.org/"> の <tt>groff-current.tar.gz</tt>) で、 `<tt>groff -Tlatin1</tt>' や `<tt>groff -Tascii</tt>' の代わりに `<tt>groff -Tutf8</tt>' を実行する必要があります。 <sect2>TeX  teTeX 0.9 以降には Omega と呼ばれる、TeX に Unicode への対応を追加したものがあります。(<htmlurl url="http://www.gutenberg.eu.org/omega/" name="http://www.gutenberg.eu.org/omega/">, <htmlurl url="ftp://ftp.ens.fr/pub/tex/yannis/omega" name="ftp://ftp.ens.fr/pub/tex/yannis/omega">) さらに <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/utf8-tex-0.1.tar.gz" name="utf8-tex-0.1.tar.gz"> の unicode.tex ファイルを使うと、TeX のソースとして UTF-8 でエンコードされたものを扱うことができます。現在、数多くの Unicode 文字がサポートされています。  これらの変更点はソースの先頭に次の行を追加し、(`tex'のかわりに) `omega' や (`latex' のかわりに)`lambda' を実行することにより利用することできます。  <tscreen><verb> \ocp\TexUTF=inutf8 \InputTranslation currentfile \TexUTF </verb></tscreen> <tscreen><verb> \input unicode </verb></tscreen>  関連するリンク： <htmlurl url="http://www.dante.de/projekte/nts/NTS-FAQ.html" name="http://www.dante.de/projekte/nts/NTS-FAQ.html">, <htmlurl url="ftp://ftp.dante.de/pub/tex/language/chinese/CJK/" name="ftp://ftp.dante.de/pub/tex/language/chinese/CJK/">. <sect1>  データーベース <sect2>PostgreSQL  PostgreSQL 6.4 以降ではオプション <tt>--with-mb=UNICODE</tt> を指定してバイナリを作成することができます。 <sect1>  その他のテキストモードのアプリケーション <sect2>less  これ <htmlurl url="http://www.flash.net/~marknu/less/less-346.tar.gz" name="http://www.flash.net/~marknu/less/less-346.tar.gz"> に Robert Brady <htmlurl url="mailto:rwb197@ecs.soton.ac.uk" name="<rwb197@ecs.soton.ac.uk>"> のパッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/less-346-utf8.diff" name="less-346-utf8.diff"> をあててインストールします。  そして次に環境変数 LESSCHARSET をセットします。 <tscreen><verb> $ export LESSCHARSET=utf-8 </verb></tscreen>  環境変数 LESSKEY をセットしている場合には、その変数が指している lesskey ファイルで LESSCHART を定義していないことを確認してください。必要に応じて `lesskey' コマンドでファイルの再生成や、LESSKEY 環境変数の unset を行ってください。 <sect2>expand, wc  GNU textutils-2.0 を入手し、パッチ <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/textutils-2.0.diff" name="textutils-2.0.diff">  をあてて "#define HAVE_MBRTOWC 1", "#define HAVE_FGETWC 1", "#define HAVE_FPUTWC 1" を config.h に追加し、src/Makefile の CFLAGS と LDFLAGS が libutf8 がインストールされているディレクトリを include するようにしてリビルドしてください。 <sect2>col, colcrt, colrm, column, rev, ul  util-linux-2.9y パッケージを入手して configure し、defines.h の ENABLE_WIDECHAR を定義し(訳注：#define ENABLE_WIDECHAR)、lib/widechar.h の "#if 0" を "#if 1" にします。そして text-utils/Makefile の CFLAGS と LDFLAGS が libutf8 がインストールされているディレクトリを include するようにしてリビルドしてください。 <sect2>figlet  figlet 2.2 には UTF-8 で入力するオプション "figlet -C utf8" があります。 <sect2>kermit  シリアル通信用プログラム C-Kermit <htmlurl url="http://www.columbia.edu/kermit/" name="http://www.columbia.edu/kermit/">  のバージョン 7.0beta10 以降では、ファイルおよび通信のエンコーディングとして UTF-8 と UCS-2 を、ターミナルでのエンコーディングとして UTF-8 を使用することができます。エンコーディングに関するドキュメントは <htmlurl url="ftp://kermit.columbia.edu/kermit/test/text/ckermit2.txt" name="ftp://kermit.columbia.edu/kermit/test/text/ckermit2.txt"> にあります。 <sect1>  その他の X11 アプリケーション  X11 Xlib の UTF-8 ロケールは現在開発中です。 <sect>  あなたのプログラムで Unicode を扱えるようにする <sect1>C/C++  C 言語の `<tt>char</tt>' 型は 8 ビットですが、これは扱える最小のサイズだからです。 <sect2>  通常のテキストハンドリング  1995 年に ISO/ANSI C standard に追加された修正条項に記述されているのは、 "wide character/ワイド文字" 型である `<tt>wchar_t</tt>'と、 <tt><string.h></tt> および <tt><ctype.h></tt> (それぞれ <tt><wchar.h></tt> および <tt><wctype.h></tt> で宣言されています)にある一連の関数と、`<tt>char *</tt>' と `<tt>wchar_t *</tt>' 間の一連の変換関数 (<tt><stdlib.h></tt> で宣言されています)です。  これらの API の良いリファレンス <itemize> <item>  GNU libc-2.1 マニュアルの 4 章 "Character Handling" と 6 章 "Character Set Handling" <item>  マニュアル<htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/man-mbswcs.tar.gz" name="man-mbswcs.tar.gz">、現在は <htmlurl url="ftp://ftp.win.tue.nl/pub/linux-local/manpages/man-pages-1.28.tar.gz" name="ftp://ftp.win.tue.nl/pub/linux-local/manpages/man-pages-1.28.tar.gz"> に含まれています。 <item>  OpenGroup のイントロダクション <htmlurl url="http://www.unix-systems.org/version2/whatsnew/login_mse.html" name="http://www.unix-systems.org/version2/whatsnew/login_mse.html"> <item>  OpenGroup の Single Unix specification <htmlurl url="http://www.UNIX-systems.org/online.html" name="http://www.UNIX-systems.org/online.html"> <item>  ISO/IEC 9899:1999 (ISO C 99) standard<newline> 採用(adopted)前の n2794 と呼ばれている最新のドラフトは <htmlurl url="ftp://ftp.csn.net/DMK/sc22wg14/review/" name="ftp://ftp.csn.net/DMK/sc22wg14/review/">  もしくは <htmlurl url="http://java-tutor.com/docs/c/" name="http://java-tutor.com/docs/c/"> <item>  Clive Feather のイントロダクション <htmlurl url="http://www.lysator.liu.se/c/na1.html" name="http://www.lysator.liu.se/c/na1.html"> <item>  the Dinkumware C library リファレンス <htmlurl url="http://www.dinkumware.com/htm_cl/" name="http://www.dinkumware.com/htm_cl/"> </itemize>  これらの API を使う利点 <itemize> <item>  ベンダーに依存しない標準です。 <item>  関数はユーザーのロケールに応じた正しい動作をします。全てのプログラムで <tt>setlocale(LC_ALL,"");</tt> を呼びだす必要があります。 </itemize>  これらの API の欠点 <itemize> <item>  呼びだし毎に使用する内部的な状態フラグを保持しているため、いくつかの関数はマルチスレッドセーフではありません。 <item>  どのような時にでも使用できるというロケールデータタイプはありません。つまりこれらの API は、1 つ以上のロケールや文字セットを同時に使用しなければならない時には、うまく動作しません。 <item>  多くの OS で、これらの API のサポートは満足いくものではありません。 </itemize> <sect3>  可搬性(Portability)について  `<tt>wchar_t</tt>' が Unicode で、マルチバイトの文字列 `<tt>char *</tt>' が UTF-8 でエンコードされているかどうかはプラットフォームや、時にはロカールにも依存しています。  <htmlurl url="http://www.UNIX-systems.org/online.html" name="Single Unix specification"> では `<tt>wchar_t</tt>' 型についてこのように述べられています：  <quote> プロセスの全てのワイド文字コードは、固定長のビットで構成されている。これに対して文字(character)を構成するバイト数は可変である。文字を表現するバイト(あるいはバイトの並び)は、ワイド文字コードとして表現することもできる。つまりワイド文字コードにより、固定長でテキストデータを扱うことができる。全ビットがゼロのワイド文字コードはヌルのワイド文字コードで、ワイド文字の文字列の終りを表す。可搬性のある文字セット (著者注：つまり ASCII) を表現するために使用されるワイド文字の値は、1 文字で文字を表している時にはその (ASCII での)値に等しくなる。その他の文字のワイド文字コードはロケールおよび実装に依存する。状態シフトバイトにはワイド文字コード表現はない。 </quote>  結論としては、可搬性のあるプログラムでは非 ASCII 文字を文字列のリテラルとして使うべきではないということです。つまり Unicode の二重引用符がコード U+201C および U+201D ということを知っていたとしても、C のプログラムでは文字列のリテラル <tt>L"\u201cHello\u201d, he said"</tt> や <tt>"\xe2\x80\x9cHello\xe2\x80\x9d, he said"</tt> を使用すべきではありません。そのかわりに GNU gettext を使用して <tt>gettext("'Hello', he said")</tt> と書き、メッセージデータベース en.UTF-8.po を作成して "'Hello', he said" を "\u201cHello\u201d, he said" に翻訳します。  以下は各 UNIX における ISO/ANSI C 機能の可搬性を調査したものです。GNU glibc-2.2 はこれら全てをサポートする予定ですが、現在の所は(まだ出ていないため)以下のもので我慢するしかありません。 <descrip> <tag>GNU glibc-2.0.x, glibc-2.1.x</tag> <itemize>  <item><wchar.h> および <wctype.h> があります <item>wcs/mbs 関数がありますが、fgetwc/fputwc/wprintf はありません <item>UTF-8 ロケールはありません <item>mbrtowc は文字コードが 0x80 以上の場合、EILSEQ を返します </itemize> <tag>Solaris 2.7</tag> <itemize>  <item><wchar.h> および <wctype.h> があります <item>wcs/mbs 関数、fgetwc/fputwc/wprintf 関数、全てあります。 <item>次の UTF-8 ロケールがあります： en_US.UTF-8, de.UTF-8, es.UTF-8, fr.UTF-8, it.UTF-8, sv.UTF-8. <item>mbrtowc は文字コードが 0x80 以上の場合、(-2 ではなく) -1/EILSEQ を返します </itemize> <tag>OSF/1 4.0d</tag> <itemize>  <item><wchar.h> および <wctype.h> があります <item>wcs/mbs 関数、fgetwc/fputwc/wprintf 関数、全てあります <item>アドオンの universal.utf8@ucs4 ロケールがあります。"man 5 unicode" を参照してください <item>mbrtowc は UTF-8 を扱えません </itemize> <tag>Irix 6.5</tag> <itemize>  <item><wchar.h> および <wctype.h> があります <item>wcs/mbs 関数、fgetwc/fputwc 関数はありますが、wprintf はありません <item>マルチバイトのロケールはありません <item>mbstate_t のダミーな定義しかありません <item>mbrtowc がありません </itemize> <tag>HP-UX 11.00</tag> <itemize>  <item><wchar.h> はありますが、<wctype.h> はありません <item>wcs/mbs 関数、fgetwc/fputwc 関数はありますが、wprintf はありません <item>C.utf8 ロケールがあります <item>mbstate_t がありません <item>mbrtowc がありません </itemize> <tag>AIX 4.2</tag> <itemize>  <item><wchar.h> はありますが、<wctype.h> はありません。代わりとして <ctype.h> と <wchar.h> を使います <item>wcs/mbs 関数、fgetwc/fputwc 関数はありますが、wprintf はありません <item>次の UTF-8 ロケールがあります： ET_EE.UTF-8, LT_LT.UTF-8, LV_LV.UTF-8, ZH_CN.UTF-8. <item>mbstate_t がありません <item>mbrtowc がありません </itemize> </descrip>  以上より、再開可能(restartable)かつマルチスレッドセーフな wcsr/mbsr 関数を使うことをお勧めします。関数が無いシステム(Irix, HP-UX, AIX)のことは忘れてしまって、UTF-8 ロケールのプラグイン libutf8_plug.so(下記参照のこと)を、 wcsr/mbsr 関数を使用したプログラムをコンパイルできるシステム(Linux, Solaris, OSF/1)で使用しましょう。  Sun の同様なアドバイス<htmlurl url="http://www.sun.com/software/white-papers/wp-unicode/" name="http://www.sun.com/software/white-papers/wp-unicode/"> の "Internationalized Applications with Unicode" セクションにはこのように書かれています：  <quote> 正しくアプリケーションを国際化するには、次のガイドラインに沿う必要がある： </quote>  <enum> <item>Unicode への直接のアクセスは避ける。これはプラットフォーム上の国際化フレームワークの仕事です <item>POSIX モデルの、マルチバイトおよびワイド文字インターフェースを使用する <item>国際化フレームワークの提供する言語および文化依存操作の API のみを呼びだす <item>コードセット非依存のままにする </enum>  もし何かの理由で、`wchar_t' が Unicode だとどうしても仮定しなければならない(例えば一部の Unicode 文字に特別な処理を行ないたい時)ようなコードが必要な時には、コードのその部分を <tt>is_locale_utf8()</tt> の結果を見て動作するようにするべきです。そうしない場合そのプログラムは、ロケールや他のプラットフォームでの動作の記述でぐちゃぐちゃになってしまうでしょう。 <tt>is_locale_utf8</tt> 関数は <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/utf8locale.h" name="utf8locale.h"> で宣言され、<htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/utf8locale.c" name="utf8locale.c"> で定義されています。 <sect3>  libutf8 ライブラリ  ISO/ANSI C API の可搬性のある実装で、8 ビットのロケールと UTF-8 ロケールをサポートします。これは <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/utf8/libutf8-0.6.2.tar.gz" name="libutf8-0.6.2.tar.gz"> より取得できます。  利点： <itemize> <item>  Unicode UTF-8 を可搬性のある形でサポートします。マルチバイト文字やワイド文字をまったくサポートをしていない、もしくは正しく動作しない OS であってもです。 <item>  8 ビットロケールおよび UTF-8 ロケールをサポートする全ての OS で同一のバイナリを実行することができます。 <item>  OS ベンダーが適切なマルチバイト文字サポートを追加すれば、それを -DHAVE_LIBUTF8 コンパイルオプションなしで単純に再コンパイルするだけで利用することができます。 </itemize> <sect3>  Plan9 の場合  Unix の一種である Plan9 オペレーティングシステムは、全てのアプリケーションの文字エンコーディングとして UTF-8 を使用しています。ワイド文字型は `<tt>wchar_t</tt>' ではなく、`<tt>Rune</tt>' です。Rob Pike と Howard Trickey が書いたライブラリは <htmlurl url="ftp://ftp.cdrom.com/pub/netlib/research/9libs/9libs-1.0.tar.gz" name="ftp://ftp.cdrom.com/pub/netlib/research/9libs/9libs-1.0.tar.gz"> にあります。Alistair G. Crooks の書いたその他の同様なライブラリは <htmlurl url="ftp://ftp.cdrom.com/pub/NetBSD/packages/distfiles/libutf-2.10.tar.gz" name="ftp://ftp.cdrom.com/pub/NetBSD/packages/distfiles/libutf-2.10.tar.gz"> です。これらのライブラリには UTF-8 を扱える正規表現があります。  この API の欠点： <itemize> <item>  UTF-8(サポート)はオプションではなく、コンパイル時に含まれてしまいます。これによりプログラムは、ヨーロッパでまだ数多く使用されている 8 ビットエンコーディングをサポートできません。 </itemize> <sect2>  GUI 用には  Qt-2.0 ライブラリ <htmlurl url="http://www.troll.no/" name="http://www.troll.no/"> には、Unicode に完全対応した QString クラスがあります。UTF-8 でエンコードされたテキストとの相互変換には、メンバ関数の QString::utf8 および QString::fromUtf8 を使うことができます。 QString::ascii および QString::latin1 メンバ関数はもはや使うべきではありません。 <sect2>  先進的なテキスト操作  これまでに述べたライブラリは、ASCII を扱えるものを Unicode を扱えるようにしたバージョンです。ここで述べるのは titlecase(単語の始まりを大文字にすること、またはその反対)、句読点と記号の区別、標準的な分かち書き (decomposition)、結合を行うクラス、標準的なソートといった機能を Unicode で扱えるライブラリです。 <descrip> <tag>ucdata-2.3</tag>  Mark Leisher の ucdata library <htmlurl url="http://crl.nmsu.edu/~mleisher/ucdata.html" name="http://crl.nmsu.edu/~mleisher/ucdata.html"> には、文字のプロパティ、大文字と小文字の変換、分かち書き(decomposition)、結合を行うクラスがあります。 <tag>ICU</tag>  IBM の Unicode クラス(IBMs Classes for Unicode) <htmlurl url="http://www.alphaworks.ibm.com/tech/icu/" name="http://www.alphaworks.ibm.com/tech/icu/"> です。総合的な国際化ライブラリで、Unicode の文字列、リソースバンドル、数値のフォーマッタ、日付／時間のフォーマッタ、メッセージフォーマッタ、照合などの機能があります。多くのロケールがサポートされており、Unix と Win32 の間で可搬性がありますが、そのままでは Linux の libc6 上でしかコンパイルできません(libc5 では駄目です)。 <tag>libunicode</tag>  Tom Tromey 達による、GNOME libunicode library <htmlurl url="http://cvs.gnome.org/lxr/source/libunicode/" name="http://cvs.gnome.org/lxr/source/libunicode/"> です。これには文字セットのコンバート、文字のプロパティ、分かち書き(decomposition)の機能があります。 </descrip> <sect2>  変換用には  2 種類の変換ライブラリがあります。これは UTF-8 や、多くの 8 ビット文字セットをサポートしています。 <sect3>iconv  GNU glibc-2.1.1 に含まれている、Ulrich Drepper による iconv の実装 <htmlurl url="ftp://ftp.gnu.org/pub/gnu/glibc/glibc-2.1.1.tar.gz" name="ftp://ftp.gnu.org/pub/gnu/glibc/glibc-2.1.1.tar.gz">  Bruno Haible による可搬性のある iconv <htmlurl url="ftp://ftp.ilog.fr/pub/Users/haible/gnu/libiconv-1.1.tar.gz" name="ftp://ftp.ilog.fr/pub/Users/haible/gnu/libiconv-1.1.tar.gz">  Konstantin Chuguev <htmlurl url="mailto:joy@urc.ac.ru" name="<joy@urc.ac.ru>"> による可搬性のある iconv <htmlurl url="ftp://ftp.urc.ac.ru/pub/local/OS/Unix/converters/iconv-0.4.tar.gz" name="ftp://ftp.urc.ac.ru/pub/local/OS/Unix/converters/iconv-0.4.tar.gz">  利点： <itemize> <item>  iconv は POSIX 標準であり、iconv を使用して UTF-8 との相互変換を行うプログラムは Solaris でも動作します。ただし文字セットの名前はプラットフォーム間で異なっています。例えば glibc では "EUC-JP" ですが、HP-UX では "eucJP" になっています(この文字セットの公式な IANA での名前は "EUC-JP" ですから、明らかに HP-UX が間違っています)。 <item>  glibc-2.1 では他にライブラリを必要としません。その他の環境では、Bruno Haible や Konstantin Chuguev の実装した iconv を使用することができます。 </itemize> <sect3>librecode  François Pinard の librecode <htmlurl url="ftp://ftp.gnu.org/pub/gnu/recode/recode-3.5.tar.gz" name="ftp://ftp.gnu.org/pub/gnu/recode/recode-3.5.tar.gz">  利点： <itemize> <item>  字訳(transliteration)をサポートしています。これは非 ASCII 文字を ASCII 文字へと、欠落のない(lossless)変換が不可能な場合であっても人間が読める形にコンバートします。 </itemize>  欠点： <itemize> <item>  標準外(non-standard) な API <item>  初期化が遅い </itemize> <sect2>  その他のアプローチ <descrip> <tag>libutf-8</tag>  G. Adam Stanislav <htmlurl url="mailto:adam@whizkidtech.net" name="<adam@whizkidtech.net>">の libutf-8 には UTF-8 エンコードされた `FILE*' ストリームとの相互変換を動的に行なういくつかの関数があります。 <htmlurl url="http://www.whizkidtech.net/i18n/libutf-8-1.0.tar.gz" name="http://www.whizkidtech.net/i18n/libutf-8-1.0.tar.gz">  利点： <itemize> <item>  非常に小さい </itemize>  欠点： <itemize> <item>  標準外(non-standard) な API <item>  UTF-8 はオプションではなくコンパイル時に含まれてしまいます。これにより、このライブラリとコンパイルされたプログラムは 8 ビットのエンコーディングをサポートしません。こういったプログラムはヨーロッパではまだ数多く使用されています。 <item>  インストールは簡単ではありません。autoconfig されないため、Makefile をいじる必要があります。 </itemize> </descrip> <sect1>Java  Java は言語自体が Unicode をサポートします。`char' 型は Unicode 文字を表し、また `java.lang.String' クラスは Unicode の文字列を扱えます。  Java はどんな Unicode 文字でも、自身のウィンドウシステム AWT を使用して表示することができます。このために必要なことは、 1. Java のシステムプロパティ "user.language" を適切なものにセットする。 2. /usr/lib/java/lib/font.properties.<it>language</it> フォントセットの定義を適切なものにセットする。 3. 上記で指定したフォントをインストールする。例えば日本語の文字を含むテキストを表示するには、日本語のフォントをインストールし、"java - Duser.language=ja ..." で実行します。フォントセットを組み合わせることもできます：西ヨーロッパ、ギリシャ、日本語の文字を同時に表示するには、 "font.properties" (ISO-8859-1 をカバー)、"font.properties.el" (ISO-8859-7 をカバー)、"font.properties.ja" ファイルを組み合わせたものを作成します。??This is untested??  java.io.DataInput および java.io.DataOutput インターフェースにはそれぞれ、 `readUTF' や `writeUTF' というメソッドがありますが、これらは UTF-8 を使用しないことに注意してください。これらは変更された UTF-8 を使用します： NUL 文字は 0x00 のかわりに 2 バイトの 0xC0 0x80 としてエンコードされ、末尾に 0x00 バイトが追加されます。このようにエンコードされるため、文字列はフィールドの長さを持たなくとも、NUL 文字を含むことができます。C では <string.h> の strlen() や strcpy() といった関数でそのような NUL 文字を含んだ文字列を扱うことができます。 <sect1>Lisp  Common Lisp 標準では `base-char' と `character' の 2 種類の文字列型を定義しています。Unicode をサポートするかどうかは実装に依存します。文字セットやエンコーディングを指定するためには、引数として `:external-format' を指定し、`open' で定義します。  フリーの(訳注：無料ではなく、自由という意味です) Common Lisp の実装では、 CLISP <htmlurl url="http://clisp.cons.org/" name="http://clisp.cons.org/"> だけが Unicode をサポートしていますが、そのためには CLISP の 1999年 7月以降のバージョン <htmlurl url="ftp://clisp.cons.org/pub/lisp/clisp/source/clispsrc.tar.gz" name="ftp://clisp.cons.org/pub/lisp/clisp/source/clispsrc.tar.gz"> が必要となります。`base-char'型および `character' 型はどちらも 16-bit Unicode と同等です。ファイル、ソケット、パイプの I/O に使用されるエンコーディングは `:external-format' 引数で指定することができます。ファイル、ソケット、パイプの I/O のデフォルトのエンコーディングおよび tty I/O に使用されたエンコーディングはロケールに依存しています。  商用の Common Lisp の実装では、Eclipse <htmlurl url="http://www.elwood.com/eclipse/eclipse.htm" name="http://www.elwood.com/eclipse/eclipse.htm"> だけが Unicode をサポートします。<htmlurl url="http://www.elwood.com/eclipse/char.htm" name="http://www.elwood.com/eclipse/char.htm"> を参照してください。 `base-char' 型は ISO-8859-1 と同等であり、また `character' 型は全ての Unicode 文字を含むことができます。ファイルの I/O に使用されるエンコーディングの指定は `:element-type' および `:external-format' 引数で `open' を指定することにより可能です。制限事項：文字属性(character attribute attribute) 関数はロケールに依存しています。ソースおよびコンパイルされたソースファイルは Unicode の文字列でのリテラルを扱うことができません。  商用の Common Lisp の実装である Allegro CL はまだ Unicode をサポートしませんが、Erik Naggum が現在作業中です。 <sect1>Ada95  Ada95 は Unicode をサポートするためにデザインされました。Ada95 の標準ライブラリの機能には、ISO 10646-1 のための特別なデータ型である Wide_Character および Wide_String があります。これらに関連する多数のプロシージャや関数も同様です。GNU Ada95 コンパイラ(gnat-3.11 以降)は UTF-8 をワイド文字の外部エンコーディングとしてサポートします。これにより、UTF-8 をソースコードとアプリケーションの I/O として使用することができます。アプリケーションでも使用できるようにするにはファイルをオープンする時に FORM 文字列に "WCEM=8" をセットし、またソースコードが UTF-8 ならコンパイラオプション "-gnatW8" を使用します。詳しくは GNAT および Ada95 のリファレンスマニュアルを参照してください。 <sect>  他の情報源 <sect1>  メーリングリスト  以下のメーリングリストには、多くの人がいます。   <sect2>linux-utf8  アドレス： <tt>linux-utf8@nl.linux.org</tt>  このメーリングリストは Unicode による国際化についてです。キーボードドライバから X11 のフォントまで、幅広いトピックについて話されています。  アーカイブは <htmlurl url="http://mail.nl.linux.org/linux-utf8/" name="http://mail.nl.linux.org/linux-utf8/"> にあります。  講読(subscribe)するには <tt>majordomo@nl.linux.org</tt> へ、本文に "subscribe linux-utf8" と書いて送信します。 <sect2>li18nux  アドレス： <tt>linux-i18nsun.com</tt>  このメーリングリストは Linux における国際化作業の組織編成や会合の打ち合わせについてです。  講読(subscribe)するには http://www.li18nux.org/ でフォームに記述して <tt>linux-i18n-request@sun.com</tt> へ送信します。 <sect2>unicode  アドレス： <tt>unicode@unicode.org</tt>  このメーリングリストは Unicode の標準化、開発、Bidi やソートのアルゴリズムといった関連する技術について話されています。  アーカイブは <htmlurl url="ftp://ftp.unicode.org/Public/MailArchive/" name="ftp://ftp.unicode.org/Public/MailArchive/">  にありますが、定期的にアップデートはされてはいません。  講読するには <htmlurl url="http://www.unicode.org/unicode/consortium/distlist.html" name="http://www.unicode.org/unicode/consortium/distlist.html"> を御覧ください。 <sect2>  X11 国際化  アドレス： <tt>i18n@xfree86.org</tt>  このメーリングリストは、X11/XFree86 システムの国際化の作業者向けのものです。  アーカイブは <htmlurl url="http://devel.xfree86.org/archives/i18n/" name="http://devel.xfree86.org/archives/i18n/"> にあります。  講読するには、<tt>i18n-request@xfree86.org</tt> (恐い人じゃないです) にメールして、動機を説明してください。 <sect2>  X11 フォント  アドレス： <tt>fonts@xfree86.org</tt>  このメーリングリストは Unicode フォントや、X11/XFree86 システム用のフォントサブシステムの開発者向けのものです。  アーカイブは <htmlurl url="http://devel.xfree86.org/archives/fonts/" name="http://devel.xfree86.org/archives/fonts/"> にあります。  講読するには <tt>fonts-request@xfree86.org</tt> にいるオーバーワークの人にメールして、動機を説明しましょう。 </article>