src/japanese.c

   1 /*!
   2  *  @file japanese.c
   3  *  @brief 日本語処理関数
   4  *  @date 2014/07/07
   5  */
   6
   7 #include "angband.h"
   8 #include "util.h"
   9
  10 #ifdef JP
  11
  12 typedef struct convert_key convert_key;
  13
  14 struct convert_key
  15 {
  16         concptr key1;
  17         concptr key2;
  18 };
  19
  20 static const convert_key s2j_table[] = {
  21         {"mb","nb"}, {"mp","np"}, {"mv","nv"}, {"mm","nm"},
  22         {"x","ks"},
  23         /* sindar:シンダール  parantir:パランティア  feanor:フェアノール */
  24         {"ar$","a-ru$"}, {"ir$","ia$"}, {"or$","o-ru$"},
  25         {"ra","ラ"}, {"ri","リ"}, {"ru","ル"}, {"re","レ"}, {"ro","ロ"},
  26         {"ir","ia"}, {"ur","ua"}, {"er","ea"}, {"ar","aル"},
  27         {"sha","シャ"}, {"shi","シ"}, {"shu","シュ"}, {"she","シェ"}, {"sho","ショ"},
  28         {"tha","サ"}, {"thi","シ"}, {"thu","ス"}, {"the","セ"}, {"tho","ソ"},
  29         {"cha","ハ"}, {"chi","ヒ"}, {"chu","フ"}, {"che","ヘ"}, {"cho","ホ"},
  30         {"dha","ザ"}, {"dhi","ジ"}, {"dhu","ズ"}, {"dhe","ゼ"}, {"dho","ゾ"},
  31         {"ba","バ"}, {"bi","ビ"}, {"bu","ブ"}, {"be","ベ"}, {"bo","ボ"},
  32         {"ca","カ"}, {"ci","キ"}, {"cu","ク"}, {"ce","ケ"}, {"co","コ"},
  33         {"da","ダ"}, {"di","ディ"}, {"du","ドゥ"}, {"de","デ"}, {"do","ド"},
  34         {"fa","ファ"}, {"fi","フィ"}, {"fu","フ"}, {"fe","フェ"}, {"fo","フォ"},
  35         {"ga","ガ"}, {"gi","ギ"}, {"gu","グ"}, {"ge","ゲ"}, {"go","ゴ"},
  36         {"ha","ハ"}, {"hi","ヒ"}, {"hu","フ"}, {"he","ヘ"}, {"ho","ホ"},
  37         {"ja","ジャ"}, {"ji","ジ"}, {"ju","ジュ"}, {"je","ジェ"}, {"jo","ジョ"},
  38         {"ka","カ"}, {"ki","キ"}, {"ku","ク"}, {"ke","ケ"}, {"ko","コ"},
  39         {"la","ラ"}, {"li","リ"}, {"lu","ル"}, {"le","レ"}, {"lo","ロ"},
  40         {"ma","マ"}, {"mi","ミ"}, {"mu","ム"}, {"me","メ"}, {"mo","モ"},
  41         {"na","ナ"}, {"ni","ニ"}, {"nu","ヌ"}, {"ne","ネ"}, {"no","ノ"},
  42         {"pa","パ"}, {"pi","ピ"}, {"pu","プ"}, {"pe","ペ"}, {"po","ポ"},
  43         {"qu","ク"},
  44         {"sa","サ"}, {"si","シ"}, {"su","ス"}, {"se","セ"}, {"so","ソ"},
  45         {"ta","タ"}, {"ti","ティ"}, {"tu","トゥ"}, {"te","テ"}, {"to","ト"},
  46         {"va","ヴァ"}, {"vi","ヴィ"}, {"vu","ヴ"}, {"ve","ヴェ"}, {"vo","ヴォ"},
  47         {"wa","ワ"}, {"wi","ウィ"}, {"wu","ウ"}, {"we","ウェ"}, {"wo","ウォ"},
  48         {"ya","ヤ"}, {"yu","ユ"}, {"yo","ヨ"},
  49         {"za","ザ"}, {"zi","ジ"}, {"zu","ズ"}, {"ze","ゼ"}, {"zo","ゾ"},
  50         {"dh","ズ"}, {"ch","フ"}, {"th","ス"},
  51         {"b","ブ"}, {"c","ク"}, {"d","ド"}, {"f","フ"}, {"g","グ"},
  52         {"h","フ"}, {"j","ジュ"}, {"k","ク"}, {"l","ル"}, {"m","ム"},
  53         {"n","ン"}, {"p","プ"}, {"q","ク"}, {"r","ル"}, {"s","ス"},
  54         {"t","ト"}, {"v","ヴ"}, {"w","ウ"}, {"y","イ"},
  55         {"a","ア"}, {"i","イ"}, {"u","ウ"}, {"e","エ"}, {"o","オ"},
  56         {"-","ー"},
  57         {NULL,NULL}
  58 };
  59
  60 /*!
  61  * @brief シンダリンを日本語の読みに変換する
  62  * @param kana 変換後の日本語文字列ポインタ
  63  * @param sindarin 変換前のシンダリン文字列ポインタ
  64  * @return なし
  65  * @details
  66  */
  67 void sindarin_to_kana(char *kana, concptr sindarin)
  68 {
  69         char buf[256];
  70         int idx;
  71
  72         sprintf(kana, "%s$", sindarin);
  73         for (idx = 0; kana[idx]; idx++)
  74                 if (isupper(kana[idx])) kana[idx] = (char)tolower(kana[idx]);
  75
  76         for (idx = 0; s2j_table[idx].key1 != NULL; idx++)
  77         {
  78                 concptr pat1 = s2j_table[idx].key1;
  79                 concptr pat2 = s2j_table[idx].key2;
  80                 int len = strlen(pat1);
  81                 char *src = kana;
  82                 char *dest = buf;
  83
  84                 while (*src)
  85                 {
  86                         if (strncmp(src, pat1, len) == 0)
  87                         {
  88                                 strcpy(dest, pat2);
  89                                 src += len;
  90                                 dest += strlen(pat2);
  91                         }
  92                         else
  93                         {
  94                                 if (iskanji(*src))
  95                                 {
  96                                         *dest = *src;
  97                                         src++;
  98                                         dest++;
  99                                 }
 100                                 *dest = *src;
 101                                 src++;
 102                                 dest++;
 103                         }
 104                 }
 105
 106                 *dest = 0;
 107                 strcpy(kana, buf);
 108         }
 109
 110         idx = 0;
 111
 112         while (kana[idx] != '$') idx++;
 113
 114         kana[idx] = '\0';
 115 }
 116
 117
 118 /*! 日本語動詞活用 (打つ＞打って,打ち etc)
 119  * JVERB_AND: 殴る,蹴る > 殴り,蹴る
 120  * JVERB_TO:  殴る,蹴る > 殴って蹴る
 121  * JVERB_OR:  殴る,蹴る > 殴ったり蹴ったり */
 122 static const struct jverb_table_t {
 123         const char* from;
 124         const char* to[3];
 125 } jverb_table[] = {
 126         { "する", {"し", "して", "した"}},
 127         { "いる", {"いて", "いて", "いた"}},
 128
 129         { "える", {"え", "えて", "えた"}},
 130         { "ける", {"け", "けて", "けた"}},
 131         { "げる", {"げ", "えて", "げた"}},
 132         { "せる", {"せ", "せて", "せた"}},
 133         { "ぜる", {"ぜ", "ぜて", "ぜた"}},
 134         { "てる", {"て", "てって", "てった"}},
 135         { "でる", {"で", "でて", "でた"}},
 136         { "ねる", {"ね", "ねて", "ねた"}},
 137         { "へる", {"へ", "へて", "へた"}},
 138         { "べる", {"べ", "べて", "べた"}},
 139         { "める", {"め", "めて", "めた"}},
 140         { "れる", {"れ", "れて", "れた"}},
 141
 142         { "う", {"い", "って", "った"}},
 143         { "く", {"き", "いて", "いた"}},
 144         { "ぐ", {"ぎ", "いで", "いだ"}},
 145         { "す", {"し", "して", "した"}},
 146         { "ず", {"じ", "じて", "じた"}},
 147         { "つ", {"ち", "って", "った"}},
 148         { "づ", {"ぢ", "って", "った"}},
 149         { "ぬ", {"に", "ねて", "ねた"}},
 150         { "ふ", {"ひ", "へて", "へた"}},
 151         { "ぶ", {"び", "んで", "んだ"}},
 152         { "む", {"み", "んで", "んだ"}},
 153         { "る", {"り", "って", "った"}},
 154         { NULL, {"そして", "ことにより", "ことや"}},
 155 };
 156
 157 /*!
 158  * @brief jverb_table_tに従って動詞を活用する
 159  * @param in 変換元文字列ポインタ
 160  * @param out 変換先文字列ポインタ
 161  * @param flag 変換種類を指定(JVERB_AND/JVERB_TO/JVERB_OR)
 162  * @return なし
 163  * @details
 164  */
 165 void jverb(concptr in, char *out, int flag)
 166 {
 167         const struct jverb_table_t * p;
 168         int in_len = strlen(in);
 169
 170         strcpy(out, in);
 171
 172         for (p = jverb_table; p->from; p++) {
 173                 int from_len = strlen(p->from);
 174                 if (strncmp(&in[in_len-from_len], p->from, from_len) == 0) {
 175                         strcpy(&out[in_len - from_len], p->to[flag - 1]);
 176                         break;
 177                 }
 178         }
 179
 180         if (p->from == NULL)
 181                 strcpy(&out[in_len], p->to[flag - 1]);
 182 }
 183
 184 /*!
 185  * @brief 文字コードをSJISからEUCに変換する / Convert SJIS string to EUC string
 186  * @param str 変換する文字列のポインタ
 187  * @return なし
 188  * @details
 189  */
 190 void sjis2euc(char *str)
 191 {
 192         int i;
 193         unsigned char c1, c2;
 194         unsigned char *tmp;
 195
 196         int len = strlen(str);
 197
 198         C_MAKE(tmp, len+1, byte);
 199
 200         for (i = 0; i < len; i++)
 201         {
 202                 c1 = str[i];
 203                 if (c1 & 0x80)
 204                 {
 205                         i++;
 206                         c2 = str[i];
 207                         if (c2 >= 0x9f)
 208                         {
 209                                 c1 = c1 * 2 - (c1 >= 0xe0 ? 0xe0 : 0x60);
 210                                 c2 += 2;
 211                         }
 212                         else
 213                         {
 214                                 c1 = c1 * 2 - (c1 >= 0xe0 ? 0xe1 : 0x61);
 215                                 c2 += 0x60 + (c2 < 0x7f);
 216                         }
 217                         tmp[i - 1] = c1;
 218                         tmp[i] = c2;
 219                 }
 220                 else
 221                         tmp[i] = c1;
 222         }
 223         tmp[len] = 0;
 224         strcpy(str, (char *)tmp);
 225
 226         C_KILL(tmp, len+1, byte);
 227 }
 228
 229
 230 /*!
 231  * @brief 文字コードをEUCからSJISに変換する / Convert EUC string to SJIS string
 232  * @param str 変換する文字列のポインタ
 233  * @return なし
 234  * @details
 235  */
 236 void euc2sjis(char *str)
 237 {
 238         int i;
 239         unsigned char c1, c2;
 240         unsigned char *tmp;
 241
 242         int len = strlen(str);
 243
 244         C_MAKE(tmp, len+1, byte);
 245
 246         for (i = 0; i < len; i++)
 247         {
 248                 c1 = str[i];
 249                 if (c1 & 0x80)
 250                 {
 251                         i++;
 252                         c2 = str[i];
 253                         if (c1 % 2)
 254                         {
 255                                 c1 = (c1 >> 1) + (c1 < 0xdf ? 0x31 : 0x71);
 256                                 c2 -= 0x60 + (c2 < 0xe0);
 257                         }
 258                         else
 259                         {
 260                                 c1 = (c1 >> 1) + (c1 < 0xdf ? 0x30 : 0x70);
 261                                 c2 -= 2;
 262                         }
 263
 264                         tmp[i - 1] = c1;
 265                         tmp[i] = c2;
 266                 }
 267                 else
 268                         tmp[i] = c1;
 269         }
 270         tmp[len] = 0;
 271         strcpy(str, (char *)tmp);
 272
 273         C_KILL(tmp, len+1, byte);
 274 }
 275
 276
 277 /*!
 278  * @brief strを環境に合った文字コードに変換し、変換前の文字コードを返す。strの長さに制限はない。
 279  * @param str 変換する文字列のポインタ
 280  * @return
 281  * 0: Unknown<br>
 282  * 1: ASCII (Never known to be ASCII in this function.)<br>
 283  * 2: EUC<br>
 284  * 3: SJIS<br>
 285  */
 286 byte codeconv(char *str)
 287 {
 288         byte code = 0;
 289         int i;
 290
 291         for (i = 0; str[i]; i++)
 292         {
 293                 unsigned char c1;
 294                 unsigned char c2;
 295
 296                 /* First byte */
 297                 c1 = str[i];
 298
 299                 /* ASCII? */
 300                 if (!(c1 & 0x80)) continue;
 301
 302                 /* Second byte */
 303                 i++;
 304                 c2 = str[i];
 305
 306                 if (((0xa1 <= c1 && c1 <= 0xdf) || (0xfd <= c1 && c1 <= 0xfe)) &&
 307                     (0xa1 <= c2 && c2 <= 0xfe))
 308                 {
 309                         /* Only EUC is allowed */
 310                         if (!code)
 311                         {
 312                                 /* EUC */
 313                                 code = 2;
 314                         }
 315
 316                         /* Broken string? */
 317                         else if (code != 2)
 318                         {
 319                                 /* No conversion */
 320                                 return 0;
 321                         }
 322                 }
 323
 324                 else if (((0x81 <= c1 && c1 <= 0x9f) &&
 325                           ((0x40 <= c2 && c2 <= 0x7e) || (0x80 <= c2 && c2 <= 0xfc))) ||
 326                          ((0xe0 <= c1 && c1 <= 0xfc) &&
 327                           (0x40 <= c2 && c2 <= 0x7e)))
 328                 {
 329                         /* Only SJIS is allowed */
 330                         if (!code)
 331                         {
 332                                 /* SJIS */
 333                                 code = 3;
 334                         }
 335
 336                         /* Broken string? */
 337                         else if (code != 3)
 338                         {
 339                                 /* No conversion */
 340                                 return 0;
 341                         }
 342                 }
 343         }
 344
 345
 346         switch (code)
 347         {
 348 #ifdef EUC
 349         case 3:
 350                 /* SJIS -> EUC */
 351                 sjis2euc(str);
 352                 break;
 353 #endif
 354
 355 #ifdef SJIS
 356         case 2:
 357                 /* EUC -> SJIS */
 358                 euc2sjis(str);
 359
 360                 break;
 361 #endif
 362         }
 363
 364         /* Return kanji code */
 365         return code;
 366 }
 367
 368 /*!
 369  * @brief 文字列sのxバイト目が漢字の1バイト目かどうか判定する
 370  * @param s 判定する文字列のポインタ
 371  * @param x 判定する位置(バイト)
 372  * @return 漢字の1バイト目ならばTRUE
 373  */
 374 bool iskanji2(concptr s, int x)
 375 {
 376         int i;
 377
 378         for (i = 0; i < x; i++)
 379         {
 380                 if (iskanji(s[i])) i++;
 381         }
 382         if ((x == i) && iskanji(s[x])) return TRUE;
 383
 384         return FALSE;
 385 }
 386
 387 /*!
 388  * @brief 文字列の文字コードがASCIIかどうかを判定する
 389  * @param str 判定する文字列へのポインタ
 390  * @return 文字列の文字コードがASCIIならTRUE、そうでなければFALSE
 391  */
 392 static bool is_ascii_str(concptr str)
 393 {
 394         for (;*str; str++) {
 395                 if (!(0x00 < *str && *str <= 0x7f))
 396                         return FALSE;
 397         }
 398         return TRUE;
 399 }
 400
 401 /*!
 402  * @brief 文字列の文字コードがUTF-8かどうかを判定する
 403  * @param str 判定する文字列へのポインタ
 404  * @return 文字列の文字コードがUTF-8ならTRUE、そうでなければFALSE
 405  */
 406 static bool is_utf8_str(concptr str)
 407 {
 408         const unsigned char* p;
 409         for (p = (const unsigned char*)str; *p; p++) {
 410                 int subseq_num = 0;
 411                 if (0x00 < *p && *p <= 0x7f) continue;
 412
 413                 if ((*p & 0xe0) == 0xc0) subseq_num = 1;
 414                 if ((*p & 0xf0) == 0xe0) subseq_num = 2;
 415                 if ((*p & 0xf8) == 0xf0) subseq_num = 3;
 416
 417                 if (subseq_num == 0) return FALSE;
 418                 while (subseq_num--) {
 419                         p++;
 420                         if (!*p || (*p & 0xc0) != 0x80) return FALSE;
 421                 }
 422         }
 423         return TRUE;
 424 }
 425
 426 #if defined(EUC)
 427 #include <iconv.h>
 428
 429 static const struct ms_to_jis_unicode_conv_t {
 430         char from[3];
 431         char to[3];
 432 } ms_to_jis_unicode_conv[] = {
 433         {{0xef, 0xbd, 0x9e}, {0xe3, 0x80, 0x9c}}, /* FULLWIDTH TILDE -> WAVE DASH */
 434         {{0xef, 0xbc, 0x8d}, {0xe2, 0x88, 0x92}}, /* FULLWIDTH HYPHEN-MINUS -> MINUS SIGN */
 435 };
 436
 437 /*!
 438  * @brief EUCがシステムコードである環境下向けにUTF-8から変換処理を行うサブルーチン
 439  * @param str 変換する文字列のポインタ
 440  * @return なし
 441  */
 442 static void ms_to_jis_unicode(char* str)
 443 {
 444         unsigned char* p;
 445         for (p = (unsigned char*)str; *p; p++) {
 446                 int subseq_num = 0;
 447                 if (0x00 < *p && *p <= 0x7f) continue;
 448
 449                 if ((*p & 0xe0) == 0xc0) subseq_num = 1;
 450                 if ((*p & 0xf0) == 0xe0) {
 451                         int i;
 452                         for (i = 0; i < sizeof(ms_to_jis_unicode_conv) / sizeof(ms_to_jis_unicode_conv[0]); ++ i) {
 453                                 const struct ms_to_jis_unicode_conv_t *c = &ms_to_jis_unicode_conv[i];
 454                                 if (memcmp(p, c->from, 3) == 0) {
 455                                         memcpy(p, c->to, 3);
 456                                 }
 457                         }
 458                         subseq_num = 2;
 459                 }
 460                 if ((*p & 0xf8) == 0xf0) subseq_num = 3;
 461
 462                 p += subseq_num;
 463         }
 464 }
 465
 466 #elif defined(SJIS) && defined(WINDOWS)
 467 #include <Windows.h>
 468 #endif
 469 /*!
 470  * @brief 文字コードがUTF-8の文字列をシステムの文字コードに変換する
 471  * @param utf8_str 変換するUTF-8の文字列へのポインタ
 472  * @param sys_str_buffer 変換したシステムの文字コードの文字列を格納するバッファへのポインタ
 473  * @param sys_str_buflen 変換したシステムの文字コードの文字列を格納するバッファの長さ
 474  * @return 変換に成功した場合TRUE、失敗した場合FALSEを返す
 475  */
 476 static bool utf8_to_sys(char* utf8_str, char* sys_str_buffer, size_t sys_str_buflen)
 477 {
 478 #if defined(EUC)
 479
 480         iconv_t cd = iconv_open("EUC-JP", "UTF-8");
 481         size_t utf8_len = strlen(utf8_str) + 1; /* include termination character */
 482         char *from = utf8_str;
 483         int ret;
 484
 485         ms_to_jis_unicode(utf8_str);
 486         ret = iconv(cd, &from, &utf8_len, &sys_str_buffer, &sys_str_buflen);
 487         iconv_close(cd);
 488         return (ret >= 0);
 489
 490 #elif defined(SJIS) && defined(WINDOWS)
 491
 492         LPWSTR utf16buf;
 493         int input_len = strlen(utf8_str) + 1; /* include termination character */
 494
 495         C_MAKE(utf16buf, input_len, WCHAR);
 496
 497         /* UTF-8 -> UTF-16 */
 498         if (MultiByteToWideChar( CP_UTF8, 0, utf8_str, input_len, utf16buf, input_len) == 0) {
 499                 C_KILL(utf16buf, input_len, WCHAR);
 500                 return FALSE;
 501         }
 502
 503         /* UTF-8 -> SJIS(CP932) */
 504         if (WideCharToMultiByte( CP_ACP, 0, utf16buf, -1, sys_str_buffer, sys_str_buflen, NULL, NULL ) == 0) {
 505                 C_KILL(utf16buf, input_len, WCHAR);
 506                 return FALSE;
 507         }
 508
 509         C_KILL(utf16buf, input_len, WCHAR);
 510         return TRUE;
 511
 512 #endif
 513 }
 514
 515 /*!
 516  * @brief 受け取った文字列の文字コードを推定し、システムの文字コードへ変換する
 517  * @param strbuf 変換する文字列を格納したバッファへのポインタ。
 518  *               バッファは変換した文字列で上書きされる。
 519  *               UTF-8からSJISもしくはEUCへの変換を想定しているのでバッファの長さが足りなくなることはない。
 520  * @param buflen バッファの長さ。
 521  * @return なし
 522  */
 523 void guess_convert_to_system_encoding(char* strbuf, int buflen)
 524 {
 525         if (is_ascii_str(strbuf)) return;
 526
 527         if (is_utf8_str(strbuf)) {
 528                 char* work;
 529                 C_MAKE(work, buflen, char);
 530                 my_strcpy(work, strbuf, buflen);
 531                 if (!utf8_to_sys(work, strbuf, buflen)) {
 532                         msg_print("警告:文字コードの変換に失敗しました");
 533                         msg_print(NULL);
 534                 }
 535                 C_KILL(work, buflen, char);
 536         }
 537 }
 538
 539 #endif /* JP */