OSDN Git Service

(split) LDP: Update release pages based on LDP 3.54 release
[linuxjm/LDP_man-pages.git] / release / man7 / unicode.7
index 62b72ad..dd943e7 100644 (file)
@@ -1,7 +1,6 @@
-.\" Hey Emacs! This file is -*- nroff -*- source.
-.\"
 .\" Copyright (C) Markus Kuhn, 1995, 2001
 .\"
+.\" %%%LICENSE_START(GPLv2+_DOC_FULL)
 .\" This is free documentation; you can redistribute it and/or
 .\" modify it under the terms of the GNU General Public License as
 .\" published by the Free Software Foundation; either version 2 of
 .\" GNU General Public License for more details.
 .\"
 .\" You should have received a copy of the GNU General Public
-.\" License along with this manual; if not, write to the Free
-.\" Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111,
-.\" USA.
+.\" License along with this manual; if not, see
+.\" <http://www.gnu.org/licenses/>.
+.\" %%%LICENSE_END
 .\"
 .\" 1995-11-26  Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
 .\"      First version written
 .\" 2001-05-11  Markus Kuhn <mgk25@cl.cam.ac.uk>
 .\"      Update
 .\"
+.\"*******************************************************************
+.\"
+.\" This file was generated with po4a. Translate the source file.
+.\"
+.\"*******************************************************************
+.\"
 .\" Japanese Version Copyright (c) 1997 HANATAKA Shinya
 .\"         all rights reserved.
 .\" Translated Thu Jun  3 20:36:31 JST 1997
 .\" Updated & Modified Sat Jun 23 07:30:09 JST 2001
 .\"         by Yuichi SATO <ysato@h4.dion.ne.jp>
 .\"
-.\"WORD:       
-.\"WORD:       diacritical mark        発音区別符号
-.\"WORD:       International Phonetic Alphabet         国際音声字母
-.\"WORD:       
-.\"
-.TH UNICODE 7 2001-05-11 "GNU" "Linux Programmer's Manual"
+.TH UNICODE 7 2012\-08\-05 GNU "Linux Programmer's Manual"
 .SH 名前
 Unicode \- 汎用文字集合
 .SH 説明
-国際規格
-.B ISO 10646
-は
-.B "汎用文字集合 (Universal Character Set (UCS))"
+国際規格 \fBISO 10646\fP は \fB汎用文字集合 (Universal Character Set (UCS))\fP
 を定義している。
 UCS は他規格の文字集合の文字を全て含んでいる。
 さらに、
-.B "双方向の互換性 (round-trip compatibility)"
-を保証する。
+\fB双方向の互換性 (round\-trip compatibility)\fP を保証する。
 例えば他の符号から UCS に変換しさらに元の符号に変換したとしても、
 何の情報も失なわれないように変換テーブルを作成することができる。
 
@@ -72,67 +68,40 @@ UCS は現実的に知られている全ての言語を表現するのに必要
 最終的には追加されるだろう。
 ヒエログリフや歴史的ないろいろなインド=ヨーロッパ言語だけでなく、
 テングワール文字、キアス文字、クリンゴン文字などの人工的な言語も選ばれている。
-UCS は、これらの文字に加えて、TeX, PostScript, APL, MS-DOS, MS-Windows,
+UCS は、これらの文字に加えて、TeX, PostScript, APL, MS\-DOS, MS\-Windows,
 Macintosh, OCR フォント、数多くのワードプロセッサーや
 出版システム、などが提供する
 図形記号・印字記号・数学記号・科学記号などの多くを含むようになった。
 
-UCS 規格 (ISO 10646) は
-.I "31ビットの文字集合アーキテクチャー"
-を記述しており、128 個の 24 ビット
-.IR 群 " (" group )
-から構成されている。
-各群は 256 個の 16 ビット
-.IR 面 " (" plane )
-に分割されており、各文字は 256 個の 8 ビット
-.IR 区 " (" row )
-の 256
-.IR 点 " (" column )
-の中に位置する。
-この規格の Part 1
-.RB ( "ISO 10646-1" )
-では、最初の 65534 個のコード位置 (0x0000 〜 0xfffd) を定義している。
-これは第 0 群の第 0 面である
-.IR "基本多言語面 (Basic Multilingual Plane (BMP))"
-を構成する。
-この規格の Part 2
-.RB ( "ISO 10646-2" )
-では、第 0 群の BMP の外部である
-0x10000 〜 0x10ffff の範囲にある
-.I "補助面"
-に文字を追加した。
+UCS 規格 (ISO 10646) は \fI31ビットの文字集合アーキテクチャー\fP を記述しており、
+128 個の 24 ビット \fI群 (group)\fP から構成されている。
+各群は 256 個の 16 ビット \fI面 (plane)\fP に分割されており、
+各文字は 256 個の 8 ビット \fI区 (row)\fP の 256 \fI点 (column)\fP の中に位置する。
+この規格の Part 1 (\fBISO 10646\-1\fP) では、
+最初の 65534 個のコード位置 (0x0000 〜 0xfffd) を定義している。
+これは第 0 群の第 0 面である \fI基本多言語面 (Basic Multilingual Plane (BMP))\fP を構成する。
+この規格の Part 2 (\fBISO 10646\-2\fP) では、第 0 群の BMP の外部である
+0x10000 〜 0x10ffff の範囲にある \fI補助面 (supplementary planes)\fP に文字を追加した。
 この規格では 0x10ffff を越えた位置に文字を追加する予定はないので、
 予想できる将来においては、
 全コード空間のうちグループ 0 の一部分は実際には使われることはない。
 BMP には他の文字集合で一般に使われる全ての文字が含まれている。
-ISO 10646-2 で追加された補助面は、
+ISO 10646\-2 で追加された補助面は、
 特定の科学分野・辞書出版・印刷産業・高次プロトコル・
 何かのファンの間などで使われる特殊な文字だけをカバーする。
 .PP
-UCS 文字を 2 バイトのワードで表現するのが
-.B UCS-2
-形式である (BMP 文字のみ)。
-また、
-.B UCS-4
-では文字を 4 バイトのワードで表現する。
+UCS 文字を 2 バイトのワードで表現するのが \fBUCS\-2\fP 形式である (BMP 文字のみ)。
+また、\fBUCS\-4\fP では文字を 4 バイトのワードで表現する。
 さらに、ASCII を処理するソフトウェアへの下位互換のために
-.B UTF-8
-エンコード形式がある。
-また、0x10ffff までの非 BMP 文字を扱う
-UCS-2 対応ソフトウェアとの互換のために
-.B UTF-16
-エンコード形式がある。
+\fBUTF\-8\fP エンコード形式がある。
+また、0x10ffff までの非 BMP 文字を扱う UCS\-2 対応ソフトウェアとの互換のために
+\fBUTF\-16\fP エンコード形式がある。
 .PP
-UCS 文字集合の 0x0000 から 0x007f は、古典的な
-.B US-ASCII
-文字集合の文字と同じである。
-また 0x0000 から 0x00ff の範囲では、
-.B ISO 8859-1 Latin-1
-文字集合の文字と同じである。
-.SS "合成文字 (Combining Characters)"
-.B UCS
-のいくつかのコード・ポイントは
-.I "合成文字 (combining characters)"
+UCS 文字集合の 0x0000 から 0x007f は、古典的な \fBUS\-ASCII\fP 文字集合の文字と同じである。
+また 0x0000 から 0x00ff の範囲では、\fBISO 8859\-1 Latin\-1\fP 文字集合の文字と同じである。
+.SS "合成文字 (Combining characters)"
+\fBUCS\fP のいくつかのコード・ポイントは
+\fI合成文字 (combining characters)\fP
 に割り当てられている。
 これらはタイプライターの移動しないアクセント・キーに似ている。
 合成文字は直前の文字にアクセントのみを加える。
@@ -149,87 +118,58 @@ UCS に前もって準備されたコード 0x00c4 でも、
 国際音声字母を使うユーザーなどには必須である。
 .SS 実装レベル
 全てのシステムに合成文字のような進んだサポートを期待しているわけではない。
-ISO 10646-1 は以下の三段階の UCS の実装レベルを指定している。
-.TP 0.9i
+ISO 10646\-1 は以下の三段階の UCS の \fI実装レベル\fP を指定している。
+.TP  0.9i
 Level 1
-合成文字と
-.B ハングル・ジャモ文字
-(いろいろな韓国・朝鮮文字の符号化。
+合成文字と \fBハングル・ジャモ文字\fP (いろいろな韓国・朝鮮文字の符号化。
 この符号化では、ハングル音節のグリフが
 3 つまたは 2 つの母音・子音コードの組み合わせで符号化される) はサポートしない。
-.TP
+.TP 
 Level 2
 Level 1 と同様だが、合成文字を必須とする言語のための文字
 (例えば、タイ文字・ラオス文字・ヘブライ文字・アラビア文字・
-デーヴァナーガリー文字・マレヤーラム文字など) は使える。
-.TP
+デーヴァナーガリー文字・マレヤーラム文字) は使える。
+.TP 
 Level 3
-全ての
-.B UCS
-文字をサポートする。
+全ての \fBUCS\fP 文字をサポートする。
 .PP
-.B ユニコード・コンソーシアム (Unicode Consortium)
-から発行された
-.B Unicode 3.0 Standard
-は、ISO 10646-1:2000 に記述された
-.B UCS Basic Multilingual Plane
+\fBユニコード・コンソーシアム (Unicode Consortium)\fP から発行された \fBUnicode 3.0 Standard\fP
+は、ISO 10646\-1:2000 に記述された \fBUCS Basic Multilingual Plane\fP
 の level 3 実装と全く同じである。
-.B Unicode 3.1
-では ISO 10646-2 の補助面が追加されている。
+\fBUnicode 3.1\fP では ISO 10646\-2 の補助面が追加されている。
 Unicode Consortium から発行される Unicode 規格と技術レポートにより、
 いろいろな文字の意味と推奨される使用法についての更なる情報が得られる。
 これらの規格書や技術レポートで、Unicode 文字列を
 編集・並べ替え・比較・正規化・変換・表示するための
 ガイドラインとアルゴリズムが分かる。
 .SS "Linux における Unicode"
-GNU/Linux では、C 言語の型
-.B wchar_t
-は符号付き 32 ビット整数型である。
+GNU/Linux では、C 言語の型 \fBwchar_t\fP は符号付き 32 ビット整数型である。
 その値は C ライブラリにより (すべてのロケールにおいて) 常に
-.B UCS
-コードの値として解釈される。
+\fBUCS\fP コードの値として解釈される。
 これを GNU C ライブラリがアプリケーションに知らせるための規約として、
-定数
-.B __STDC_ISO_10646__
-を定義する。
+定数 \fB__STDC_ISO_10646__\fP を定義する。
 これは ISO C99 規格で指定されている。
 
-ASCII 互換の
-.B UTF-8
-マルチバイトエンコードでは、入出力ストリーム・端末通信・
+ASCII 互換の \fBUTF\-8\fP マルチバイトエンコードでは、入出力ストリーム・端末通信・
 プレーンテキストファイル・ファイル名・環境変数において、
 UCS/Unicode を ASCII のように使うことができる。
-UTF-8 を文字エンコードとして使うことを
+UTF\-8 を文字エンコードとして使うことを
 全てのアプリケーションに知らせるためには、
-("LANG=en_GB.UTF-8" のように) 環境変数を使って適切な
-.I ロケール (locale)
-を選択しなければならない。
+("LANG=en_GB.UTF\-8" のように) 環境変数を使って適切な
+\fIロケール (locale)\fP を選択しなければならない。
 .PP
-.B nl_langinfo(CODESET)
-関数は選択されたエンコードの名前を返す。
-内部的な
-.I wchar_t
-文字や文字列をシステム文字列エンコードに変換 (逆変換) するのに使われる
-.BR wctomb (3)
-や
-.BR mbsrtowcs (3)、
-さらには
-.BR wcwidth (3)
-といったライブラリ関数は、
+\fBnl_langinfo(CODESET)\fP 関数は選択されたエンコードの名前を返す。
+内部的な \fIwchar_t\fP 文字や文字列をシステム文字列エンコードに変換 (逆変換) するのに使われる
+\fBwctomb\fP(3) や \fBmbsrtowcs\fP(3)、さらには \fBwcwidth\fP(3) といったライブラリ関数は、
 文字出力でどれだけカーソルが進んだか (0\(en2) を返す。
 .PP
-一般的に言うと、Linux では現在のところ
-BMP の level 1 実装のみを使うべきである。
-ある言語の文字 (とくにタイ文字) では、
-ベース文字当たり 2 つまでの合成文字を使うことが
-UTF-8 端末エミュレータと ISO 10646 フォント (level 2) でサポートされている。
+一般的に言うと、Linux では現在のところ BMP の level 1 実装のみを使うべきである。
+ある言語の文字 (とくにタイ文字) では、ベース文字当たり 2 つまでの合成文字を使うことが
+UTF\-8 端末エミュレータと ISO 10646 フォント (level 2) でサポートされている。
 しかし一般的に言えば、もし可能ならばあらかじめ合成した文字を使うべきである
-(Unicode では、これを
-.B "Normalization Form C (合成文字の正規化形式)"
-という)。
+(Unicode では、これを \fBNormalization Form C (合成文字の正規化形式)\fP という)。
 .SS プライベート・エリア
-.B BMP
-の 0xe000 〜 0xf8ff の範囲は、規格ではいかなる文字も割り当てず、
+\fBBMP\fP の 0xe000 〜 0xf8ff の範囲は、規格ではいかなる文字も割り当てず、
 私的な使用のために予約されている。
 Linux コミュニティでは、
 このプライベート・エリアをさらに細かく分割して使用する。
@@ -239,26 +179,26 @@ Linux コミュニティでは、
 Linux Zone への文字割り当ての登録は、
 現在 H. Peter Anvin <Peter.Anvin@linux.org> によって管理されている。
 .SS 文献
-.TP 0.2i
+.TP  0.2i
 *
-Information technology \(em Universal Multiple-Octet Coded Character
-Set (UCS) \(em Part 1: Architecture and Basic Multilingual Plane.
-International Standard ISO/IEC 10646-1, International Organization
-for Standardization, Geneva, 2000.
+Information technology \(em Universal Multiple\-Octet Coded Character Set
+(UCS) \(em Part 1: Architecture and Basic Multilingual Plane.  International
+Standard ISO/IEC 10646\-1, International Organization for Standardization,
+Geneva, 2000.
 
-これは
-.B UCS
-の公式な仕様である。
-http://www.iso.ch/ から注文できる CD-ROM で PDF ファイルとして入手できる。
-.TP
+これは \fBUCS\fP の公式な仕様である。
+.UR http://www.iso.ch/
+.UE
+から注文できる CD\-ROM で PDF
+ファイルとして入手できる。
+.TP 
 *
-The Unicode Standard, Version 3.0.
-The Unicode Consortium, Addison-Wesley,
-Reading, MA, 2000, ISBN 0-201-61633-5.
-.TP
+The Unicode Standard, Version 3.0.  The Unicode Consortium, Addison\-Wesley,
+Reading, MA, 2000, ISBN 0\-201\-61633\-5.
+.TP 
 *
-S. Harbison, G. Steele. C: A Reference Manual. Fourth edition,
-Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.
+S. Harbison, G. Steele. C: A Reference Manual. Fourth edition, Prentice
+Hall, Englewood Cliffs, 1995, ISBN 0\-13\-326224\-3.
 
 C プログラム言語についてのとても良い参考書である。
 第四版では、ワイド文字やマルチバイト文字エンコードを扱うための
@@ -266,49 +206,48 @@ C プログラム言語についてのとても良い参考書である。
 加えられた ISO C90 規格の 1994 Amendment 1 をカバーしている。
 しかし、ワイド文字やマルチバイト文字のサポートを
 更に改善した ISO C99 は、まだカバーしていない。
-.TP
+.TP 
 *
 Unicode 技術レポート。
 .RS
-http://www.unicode.org/unicode/reports/
+.UR http://www.unicode.org\:/unicode\:/reports/
+.UE
 .RE
-.TP
+.TP 
 *
-Markus Kuhn: UNIX/Linux のための UTF-8 と Unicode の FAQ。
+Markus Kuhn: UNIX/Linux のための UTF\-8 と Unicode の FAQ。
 .RS
-http://www.cl.cam.ac.uk/~mgk25/unicode.html
+.UR http://www.cl.cam.ac.uk\:/~mgk25\:/unicode.html
+.UE
 
-.I linux-utf8
-メーリングリストを購読するための情報がある。
+\fIlinux\-utf8\fP メーリングリストを購読するための情報がある。
 Linux で Unicode を使う場合のアドバイスを探すのに一番良い場所である。
 .RE
-.TP
+.TP 
 *
 Bruno Haible: Unicode HOWTO.
 .RS
-ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html
+.UR ftp://ftp.ilog.fr\:/pub\:/Users\:/haible\:/utf8\:/Unicode\-HOWTO.html
+.UE
 .RE
 .SH バグ
-このマニュアル・ページを最後に改訂した時点で、
-GNU C ライブラリの
-.B UTF-8
-サポートは完成している。
+.\" .SH AUTHOR
+.\" Markus Kuhn <mgk25@cl.cam.ac.uk>
+このマニュアルページを最後に改訂した時点で、
+GNU C ライブラリの \fBUTF\-8\fP サポートは完成している。
 XFree86 によるサポートは進行中である。
-.B UTF-8
-ロケールで快適に使えるアプリケーション
+\fBUTF\-8\fP ロケールで快適に使えるアプリケーション
 (多くの有名なエディタ) の作成は、まだ進行中である。
-Linux での
-.B UCS
-サポートでは通常 CJK の 2 ワイド文字が提供される。
+Linux での \fBUCS\fP サポートでは通常 CJK の 2 ワイド文字が提供される。
 単純な重ね打ちによる合成文字が提供される場合もある。
 しかし、右から左へ書く文字やヘブライ文字・アラビア文字・インド語系文字などの
 合字の置き換えを必要とする文字はサポートされていない。
 現在、これらの文字は洗練されたテキスト描画エンジンを備えた
 GUI アプリケーション (HTML ビューア・ワードプロセッサ) でのみ
 サポートされている。
-.\" .SH 著者
-.\" Markus Kuhn <mgk25@cl.cam.ac.uk>
 .SH 関連項目
-.BR setlocale (3),
-.BR charsets (7),
-.BR utf-8 (7)
+\fBsetlocale\fP(3), \fBcharsets\fP(7), \fButf\-8\fP(7)
+.SH この文書について
+この man ページは Linux \fIman\-pages\fP プロジェクトのリリース 3.54 の一部
+である。プロジェクトの説明とバグ報告に関する情報は
+http://www.kernel.org/doc/man\-pages/ に書かれている。