1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
\r
4 <meta http-equiv="content-type" content="text/html; charset=iso-2022-jp">
\r
5 <meta http-equiv="Content-Style-Type" content="text/css">
\r
6 <meta http-equiv="Author" CONTENT="Masayuki Asahara">
\r
7 <meta name="description" content="index">
\r
8 <link rel=stylesheet href="http://web.archive.org/web/20070425234048cs_/http://chasen.naist.jp/~masayu-a/css/masayu-a.css">
\r
9 <title>chasen legacy -- an old morphological analyzer</title>
\r
12 <!-- BEGIN WAYBACK TOOLBAR INSERT -->
14 <script type="text/javascript" src="http://staticweb.archive.org/js/disclaim-element.js" ></script>
15 <script type="text/javascript" src="http://staticweb.archive.org/js/graph-calc.js" ></script>
16 <script type="text/javascript" src="http://staticweb.archive.org/jflot/jquery.min.js" ></script>
17 <script type="text/javascript">
19 var firstDate = 820454400000;
20 var lastDate = 1325375999999;
21 var wbPrefix = "http://web.archive.org/web/";
22 var wbCurrentUrl = "http:\/\/chasen-legacy.sourceforge.jp\/";
29 var yearImgWidth = 25;
30 var monthImgWidth = 2;
31 var trackerVal = "none";
32 var displayDay = "25";
33 var displayMonth = "Apr";
34 var displayYear = "2007";
35 var prettyMonths = ["Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"];
37 function showTrackers(val) {
38 if(val == trackerVal) {
42 document.getElementById("displayYearEl").style.color = "#ec008c";
43 document.getElementById("displayMonthEl").style.color = "#ec008c";
44 document.getElementById("displayDayEl").style.color = "#ec008c";
46 document.getElementById("displayYearEl").innerHTML = displayYear;
47 document.getElementById("displayYearEl").style.color = "#ff0";
48 document.getElementById("displayMonthEl").innerHTML = displayMonth;
49 document.getElementById("displayMonthEl").style.color = "#ff0";
50 document.getElementById("displayDayEl").innerHTML = displayDay;
51 document.getElementById("displayDayEl").style.color = "#ff0";
53 document.getElementById("wbMouseTrackYearImg").style.display = val;
54 document.getElementById("wbMouseTrackMonthImg").style.display = val;
57 function getElementX2(obj) {
58 var thing = jQuery(obj);
59 if((thing == undefined)
60 || (typeof thing == "undefined")
61 || (typeof thing.offset == "undefined")) {
62 return getElementX(obj);
64 return Math.round(thing.offset().left);
66 function trackMouseMove(event,element) {
68 var eventX = getEventX(event);
69 var elementX = getElementX2(element);
70 var xOff = eventX - elementX;
73 } else if(xOff > imgWidth) {
76 var monthOff = xOff % yearImgWidth;
78 var year = Math.floor(xOff / yearImgWidth);
79 var yearStart = year * yearImgWidth;
80 var monthOfYear = Math.floor(monthOff / monthImgWidth);
81 if(monthOfYear > 11) {
84 // 1 extra border pixel at the left edge of the year:
85 var month = (year * 12) + monthOfYear;
87 if(monthOff % 2 == 1) {
91 zeroPad(year + firstYear) +
92 zeroPad(monthOfYear+1,2) +
93 zeroPad(day,2) + "000000";
95 var monthString = prettyMonths[monthOfYear];
96 document.getElementById("displayYearEl").innerHTML = year + 1996;
97 document.getElementById("displayMonthEl").innerHTML = monthString;
98 // looks too jarring when it changes..
99 //document.getElementById("displayDayEl").innerHTML = zeroPad(day,2);
101 var url = wbPrefix + dateString + '/' + wbCurrentUrl;
102 document.getElementById('wm-graph-anchor').href = url;
104 //document.getElementById("wmtbURL").value="evX("+eventX+") elX("+elementX+") xO("+xOff+") y("+year+") m("+month+") monthOff("+monthOff+") DS("+dateString+") Moy("+monthOfYear+") ms("+monthString+")";
105 if(curYear != year) {
106 var yrOff = year * yearImgWidth;
107 document.getElementById("wbMouseTrackYearImg").style.left = yrOff + "px";
110 if(curMonth != month) {
111 var mtOff = year + (month * monthImgWidth) + 1;
112 document.getElementById("wbMouseTrackMonthImg").style.left = mtOff + "px";
119 <style type="text/css">body{margin-top:0!important;padding-top:0!important;min-width:800px!important;}#wm-ipp a:hover{text-decoration:underline!important;}</style>
120 <div id="wm-ipp" style="display:none; position:relative;padding:0 5px;min-height:70px;min-width:800px; z-index:9000;">
121 <div id="wm-ipp-inside" style="position:fixed;padding:0!important;margin:0!important;width:97%;min-width:780px;border:5px solid #000;border-top:none;background-image:url(http://staticweb.archive.org/images/toolbar/wm_tb_bk_trns.png);text-align:center;-moz-box-shadow:1px 1px 3px #333;-webkit-box-shadow:1px 1px 3px #333;box-shadow:1px 1px 3px #333;font-size:11px!important;font-family:'Lucida Grande','Arial',sans-serif!important;">
122 <table style="border-collapse:collapse;margin:0;padding:0;width:100%;"><tbody><tr>
123 <td style="padding:10px;vertical-align:top;min-width:110px;">
124 <a href="http://wayback.archive.org/web/" title="Wayback Machine home page" style="background-color:transparent;border:none;"><img src="http://staticweb.archive.org/images/toolbar/wayback-toolbar-logo.png" alt="Wayback Machine" width="110" height="39" border="0"/></a>
126 <td style="padding:0!important;text-align:center;vertical-align:top;width:100%;">
128 <table style="border-collapse:collapse;margin:0 auto;padding:0;width:570px;"><tbody><tr>
129 <td style="padding:3px 0;" colspan="2">
130 <form target="_top" method="get" action="http://wayback.archive.org/web/form-submit.jsp" name="wmtb" id="wmtb" style="margin:0!important;padding:0!important;"><input type="text" name="url" id="wmtbURL" value="http://chasen-legacy.sourceforge.jp/" style="width:400px;font-size:11px;font-family:'Lucida Grande','Arial',sans-serif;" onfocus="javascript:this.focus();this.select();" /><input type="hidden" name="type" value="replay" /><input type="hidden" name="date" value="20070425234048" /><input type="submit" value="Go" style="font-size:11px;font-family:'Lucida Grande','Arial',sans-serif;margin-left:5px;" /><span id="wm_tb_options" style="display:block;"></span></form>
132 <td style="vertical-align:bottom;padding:5px 0 0 0!important;" rowspan="2">
133 <table style="border-collapse:collapse;width:110px;color:#99a;font-family:'Helvetica','Lucida Grande','Arial',sans-serif;"><tbody>
135 <!-- NEXT/PREV MONTH NAV AND MONTH INDICATOR -->
136 <tr style="width:110px;height:16px;font-size:10px!important;">
137 <td style="padding-right:9px;font-size:11px!important;font-weight:bold;text-transform:uppercase;text-align:right;white-space:nowrap;overflow:visible;" nowrap="nowrap">
142 <td id="displayMonthEl" style="background:#000;color:#ff0;font-size:11px!important;font-weight:bold;text-transform:uppercase;width:34px;height:15px;padding-top:1px;text-align:center;" title="You are here: 23:40:48 Apr 25, 2007">APR</td>
143 <td style="padding-left:9px;font-size:11px!important;font-weight:bold;text-transform:uppercase;white-space:nowrap;overflow:visible;" nowrap="nowrap">
145 <a href="http://web.archive.org/web/20070624112920/http://chasen-legacy.sourceforge.jp/" style="text-decoration:none;color:#33f;font-weight:bold;background-color:transparent;border:none;" title="24 Jun 2007"><strong>JUN</strong></a>
150 <!-- NEXT/PREV CAPTURE NAV AND DAY OF MONTH INDICATOR -->
152 <td style="padding-right:9px;white-space:nowrap;overflow:visible;text-align:right!important;vertical-align:middle!important;" nowrap="nowrap">
154 <img src="http://staticweb.archive.org/images/toolbar/wm_tb_prv_off.png" alt="Previous capture" width="14" height="16" border="0" />
157 <td id="displayDayEl" style="background:#000;color:#ff0;width:34px;height:24px;padding:2px 0 0 0;text-align:center;font-size:24px;font-weight: bold;" title="You are here: 23:40:48 Apr 25, 2007">25</td>
158 <td style="padding-left:9px;white-space:nowrap;overflow:visible;text-align:left!important;vertical-align:middle!important;" nowrap="nowrap">
160 <a href="http://web.archive.org/web/20070524120406/http://chasen-legacy.sourceforge.jp/" title="12:04:06 May 24, 2007" style="background-color:transparent;border:none;"><img src="http://staticweb.archive.org/images/toolbar/wm_tb_nxt_on.png" alt="Next capture" width="14" height="16" border="0"/></a>
165 <!-- NEXT/PREV YEAR NAV AND YEAR INDICATOR -->
166 <tr style="width:110px;height:13px;font-size:9px!important;">
167 <td style="padding-right:9px;font-size:11px!important;font-weight: bold;text-align:right;white-space:nowrap;overflow:visible;" nowrap="nowrap">
172 <td id="displayYearEl" style="background:#000;color:#ff0;font-size:11px!important;font-weight: bold;padding-top:1px;width:34px;height:13px;text-align:center;" title="You are here: 23:40:48 Apr 25, 2007">2007</td>
173 <td style="padding-left:9px;font-size:11px!important;font-weight: bold;white-space:nowrap;overflow:visible;" nowrap="nowrap">
175 <a href="http://web.archive.org/web/20080502011322/http://chasen-legacy.sourceforge.jp/" style="text-decoration:none;color:#33f;font-weight:bold;background-color:transparent;border:none;" title="2 May 2008"><strong>2008</strong></a>
184 <td style="vertical-align:middle;padding:0!important;">
185 <a href="http://wayback.archive.org/web/20070425234048*/http://chasen-legacy.sourceforge.jp/" style="color:#33f;font-size:11px;font-weight:bold;background-color:transparent;border:none;" title="See a list of every capture for this URL"><strong>35 captures</strong></a>
186 <div style="margin:0!important;padding:0!important;color:#666;font-size:9px;padding-top:2px!important;white-space:nowrap;" title="Timespan for captures of this URL">25 Apr 07 - 10 Nov 10</div>
188 <td style="padding:0!important;">
189 <a style="position:relative; white-space:nowrap; width:400px;height:27px;" href="" id="wm-graph-anchor">
190 <div id="wm-ipp-sparkline" style="position:relative; white-space:nowrap; width:400px;height:27px;background-color:#fff;cursor:pointer;border-right:1px solid #ccc;" title="Explore captures for this URL">
191 <img id="sparklineImgId" style="position:absolute; z-index:9012; top:0px; left:0px;"
192 onmouseover="showTrackers('inline');"
193 onmouseout="showTrackers('none');"
194 onmousemove="trackMouseMove(event,this)"
199 src="http://wayback.archive.org/jsp/graph.jsp?graphdata=400_27_1996:-1:000000000000_1997:-1:000000000000_1998:-1:000000000000_1999:-1:000000000000_2000:-1:000000000000_2001:-1:000000000000_2002:-1:000000000000_2003:-1:000000000000_2004:-1:000000000000_2005:-1:000000000000_2006:-1:000000000000_2007:3:000111010112_2008:-1:101111122102_2009:-1:111100000000_2010:-1:100111112110_2011:-1:000000000000"></img>
200 <img id="wbMouseTrackYearImg"
201 style="display:none; position:absolute; z-index:9010;"
205 src="http://staticweb.archive.org/images/toolbar/transp-yellow-pixel.png"></img>
206 <img id="wbMouseTrackMonthImg"
207 style="display:none; position:absolute; z-index:9011; "
211 src="http://staticweb.archive.org/images/toolbar/transp-red-pixel.png"></img>
216 </tr></tbody></table>
218 <td style="text-align:right;padding:5px;width:65px;font-size:11px!important;">
219 <a href="javascript:;" onclick="document.getElementById('wm-ipp').style.display='none';" style="display:block;padding-right:18px;background:url(http://staticweb.archive.org/images/toolbar/wm_tb_close.png) no-repeat 100% 0;color:#33f;font-family:'Lucida Grande','Arial',sans-serif;margin-bottom:23px;background-color:transparent;border:none;" title="Close the toolbar">Close</a>
220 <a href="http://faq.web.archive.org/" style="display:block;padding-right:18px;background:url(http://staticweb.archive.org/images/toolbar/wm_tb_help.png) no-repeat 100% 0;color:#33f;font-family:'Lucida Grande','Arial',sans-serif;background-color:transparent;border:none;" title="Get some help using the Wayback Machine">Help</a>
222 </tr></tbody></table>
226 <script type="text/javascript">
227 var wmDisclaimBanner = document.getElementById("wm-ipp");
228 if(wmDisclaimBanner != null) {
229 disclaimElement(wmDisclaimBanner);
232 <!-- END WAYBACK TOOLBAR INSERT -->
234 <h1>ChaSen -- 形態素解析器</h1>
\r
238 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。
\r
243 <li>2007-03-30 (Fri) chasen-2.4.0 リリース
\r
249 あらかじめ iconvと <a href="http://web.archive.org/web/20070425234048/http://chasen.org/~taku/software/darts/">Darts-0.31</a>のインストールが必要です。
\r
252 <li><a href="http://web.archive.org/web/20070425234048/http://sourceforge.jp/projects/chasen-legacy/">chasen-2.4.0</a>
\r
258 <li><a href="http://web.archive.org/web/20070425234048/http://sourceforge.jp/projects/ipadic/">ipadic-2.7.0</a><br>
\r
260 <li><a href="http://web.archive.org/web/20070425234048/http://download.unidic.org/">UniDic</a><br>
\r
262 <li>NAIST-Japanese-dic<br>
\r
264 <li>NAIST-Chinese-dic<br>
\r
265 中国語語辞書(奈良先端大より公開予定)
\r
267 <h3>著作権および仕様条件について</h3>
\r
269 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない.詳しくはマニュアル裏表紙の copyright notice を参照のこと.
\r
272 なお,本ソフトウェアの著作権者である奈良先端科学技術大学院大学は,原形あるいは改変された形で配布された本ソフトウェアに関連して生じる一切の損失に対して保証の責を負わないこととする.
\r
275 2.3.0 より、広告条項がなくなりました。また、Darts と iconv を必要としますので、 Darts や iconv をリンクした場合、Darts や iconv のライセンスが生成物に波及する場合がありますので御注意ください。
\r
278 辞書とシステムの分離に伴ない、2.2.1 よりシステムの Copyright の記述が若干変更になりました。同包して配布する際、辞書とシステム両方の Copyright をよくお読みになってご利用ください。
\r
282 <h3>辞書、文法定義ファイル</h3>
\r
284 茶筌の辞書をつくるためには以下のファイルが必要です。
\r
293 <li>grammar.cha - 品詞定義ファイル </li>
\r
294 <li>ctypes.cha - 活用型定義ファイル </li>
\r
295 <li>cforms.cha - 活用形定義ファイル </li>
\r
296 <li>connect.cha - 連接表定義ファイル </li>
\r
300 一般に、ユーザーが変更を加えるのは辞書定義ファイルのみです
\r
304 辞書のコンパイルには makeda コマンドを使います。この作業は文法定義ファイルのあるディレクトリでおこなう必要があります。
\r
307 $ makeda dic_name input1.dic input2.dic
\r
310 dic_name には出力したい辞書ファイルのベースネーム(拡張子を除いたファイル名)を指定します。たとえば、user を指定すると、user.da、user.lex、user.dat が生成されます。入力の辞書定義ファイルは複数指定できます。入力のフォーマットは辞書定義ファイルのフォーマットを参照してください。
\r
314 前節で作成した辞書を使うには chasenrc で次のように指定します。
\r
317 (DADIC chadic user)
\r
320 この場合、chadic.* と user.* の両方を辞書に使います。
\r
322 <h3>文法定義ファイルの変更</h3>
\r
323 <h4>文法定義ファイルの変更時の注意点</h4>
\r
325 品詞、活用定義と連接表定義の内容が矛盾していると茶筌は正しい解析をおこなえません。正しい連接表定義を作成できないときは、これらのファイルは変更してはいけません。
\r
328 文法定義ファイルを変更した場合、以下の手順で連接表のコンパイルをおこなってください。
\r
332 連接表のコンパイルには makemat コマンドを使います。
\r
335 文法定義ファイルのあるディレクトリで以下のように実行します。
\r
341 matrix.cha、table.cha が出力されます。
\r
345 システム標準の文字コード(Unix では EUC-JP、Windows では Shift_JIS)以外の文字コードを使うには、その文字コードでの辞書を用意する必要があります。
\r
348 <li>当該文字コードで書かれた文法定義ファイル、辞書定義ファイルを用意する
\r
349 <li>makemat、makeda に -i オプションで当該文字コードを指定して、連接表と辞書をコンパイルする
\r
350 <li> 茶筌実行時に -i オプションで当該文字コードを指定する
\r
353 -i オプションに指定できるのは e、s、w、a のいずれかで、それぞれ EUC-JP、Shift_JIS、UTF-8、ISO-8859-1 を指定します。
\r
356 <h2>FAQ(たぶん)よくある</h2>
\r
358 <li>WinCha (茶筌 Ver. 2.1 for Windows) がインストールできません。
\r
360 cha21244.exe ではなく cha21244sp5.exe を使ってください。
\r
363 それでもだめなときは Administrator 権限でインストールするとうまくいくかもしれません。メーリングリストでの過去の議論もご覧ください。
\r
367 使えます。*.cha と *.dic を UTF-8 に変換して以下のようにすると UTF-8 の辞書ができます。
\r
370 $ `chasen-config --mkchadic`/makemat -i w
\r
371 $ `chasen-config --mkchadic`/makeda -i w chadic *.dic
\r
374 chasenrc で変換した文法ファイルと辞書を指定し、茶筌本体にも UTF-8 で処理するようオプションを指定します。
\r
377 $ chasen -i w UTF8.txt
\r
380 必要に応じて chasenrc も UTF-8 に変更してください。
\r
382 <li>libchasen をリンクしようとすると「Undefined Symbol "cerr"」みたいなエラーがでる
\r
384 libchasen は一部 C++ のコードを含んでいます。そのためリンクするときは C++ 用のリンカを使うか、C++ の標準ライブラリ(libstdc++ など)をリンクするようにしてください。
\r
388 IPADIC には半角文字は登録されていません。あらかじめ入力文を全角文字に変換するか、辞書に半角文字のエントリを追加してください。
\r
389 "["(ASCII文字)が単語の最小単位になりません
\r
392 茶筌は日本語文字列を解析する際、連続するASCII文字を単語の最小単位とするため、単語 "[" を登録しても "["で区切られません。
\r
395 chasenrc ファイル(/usr/local/share/chasen/dic/ipadic/chasenrc など) に以下の行を追加すると、単語区切りが英語にある程度適したものになり、 [Unicode が [ と Unicode に区切られるようになります。
\r
401 ただしこの場合、未知語の品詞が「未知語」ではなく「UNKNOWN」と出力されますのでご注意下さい。
\r
405 開発拠点である奈良先端科学技術大学院大学のある奈良県生駒市高山町が、日本有数の茶筌の産地であることから、この名前がつけられました。
\r
408 ちなみに、よく間違われますが漢字表記は「茶筅」ではなく「茶筌」です。 MS-IME などで「筌」の字が出なくてこまったときは、ローマ字表記の「ChaSen」でどうぞ。
\r
412 <h2>Mailing List</h2>
\r
414 ChaSen メイリングリストは形態素解析システム ChaSen について議論するメイリングリストです。
\r
417 <li>chasen-users@is.naist.jp
\r
419 ChaSen に関する質問を受けつけたり、ChaSen をよりよくするための議論を行うメイリングリストです。 chasen-users メイリングリストへ参加(登録)するには、本文に
\r
422 subscribe あなたの名前 (名前はローマ字で。例: Hanako Kondo)
\r
425 と書いたメイルを chasen-users-ctl@is.naist.jp へ送ります。
\r
434 とだけ書いたメイルを chasen-users-ctl@is.naist.jp に送ります。その際、 From: は メイリングリストに登録しているアドレスに設定してください。
\r
436 <!-- [過去 log] [検索]-->
\r
437 <li>chasen-announce@is.naist.jp
\r
439 ChaSen または ChaSen 用辞書のリリース連絡用メイリングリストです。 chasen-announce メイリングリストへ参加(登録)するには、本文に
\r
442 subscribe あなたの名前 (名前はローマ字で。例: Hanako Kondo)
\r
445 と書いたメイルを chasen-announce-<b>ctl</b>@is.naist.jp へ送ります。
\r
454 とだけ書いたメイルを chasen-announce-<b>ctl</b>@is.naist.jp に送ります。その際、 From: は メイリングリストに登録しているアドレスに設定してください。
\r
456 <!-- [過去 log] [検索] -->
\r
457 <li>chasen@is.naist.jp
\r
459 以前までのサポート用の ML です。システム/辞書の質問については、 今後 chasen-users ML に投稿してください。
\r
462 利用許諾などの権利関係の質問や、その他非公開としたい問い合わせなどについてはこちらの chasen ML まで御連絡 ください。
\r
467 (c)Copyright by Nara Institute of Science and Technology, Japan, 2007. All rights reserved.
\r
471 <a href="mailto:masayu-a@is.naist.jp">masayu-a@is.naist.jp</a>
\r
481 FILE ARCHIVED ON 23:40:48 Apr 25, 2007 AND RETRIEVED FROM THE
482 INTERNET ARCHIVE ON 7:47:20 Nov 25, 2011.
483 JAVASCRIPT APPENDED BY WAYBACK MACHINE, COPYRIGHT INTERNET ARCHIVE.
485 ALL OTHER CONTENT MAY ALSO BE PROTECTED BY COPYRIGHT (17 U.S.C.