From f971fd3e5c5dbc2ff98592a0836a3e4c67eab0cc Mon Sep 17 00:00:00 2001
From: derui <derutakayu@user.sourceforge.jp>
Date: Thu, 10 Sep 2009 23:41:48 +0900
Subject: [PATCH] =?utf8?q?utf8=5Fstring,=20utf8=E3=81=A8=E3=81=AA=E3=81=A3?=
 =?utf8?q?=E3=81=A6=E3=81=84=E3=81=9F=E3=82=82=E3=81=AE=E3=82=92=E3=80=81s?=
 =?utf8?q?cheme=E4=B8=AD=E3=81=AEUnicode=E3=81=AE=E5=9F=BA=E7=82=B9?=
 =?utf8?q?=E3=81=A8=E3=81=AA=E3=82=8BUniChar=E3=81=A8UniString=E3=81=AB?=
 =?utf8?q?=E6=AD=A3=E8=A6=8F=E5=8C=96=E3=80=82=20utf8=E3=81=AE=E8=AA=AD?=
 =?utf8?q?=E3=81=BF=E5=87=BA=E3=81=97=E3=81=AF=E3=80=81scheme=E3=81=AEport?=
 =?utf8?q?=E3=81=AB=E4=BC=BC=E3=81=9B=E3=81=9FBinaryPort=E3=81=A8Transcode?=
 =?utf8?q?r=E3=81=AE=E7=B5=84=E5=90=88=E3=81=9B=E3=81=A7=E8=AA=AD=E5=87=BA?=
 =?utf8?q?=E3=81=99=E3=82=88=E3=81=86=E3=81=AB=E5=A4=89=E6=9B=B4=E4=B8=AD?=
 =?utf8?q?=E3=80=82?=
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

---
 .gitignore                                       |   1 +
 binary_port.cpp                                  |  88 ++++++
 binary_port.h                                    |  51 +++
 delimiter.cpp                                    |  18 +-
 delimiter.h                                      |  16 +-
 lexeme.h                                         |   6 +-
 lexeme_impl.cpp                                  |  90 +++---
 lexeme_impl.h                                    |  54 ++--
 lexer.h                                          |   2 +-
 literal.cpp                                      |  24 +-
 literal.h                                        |   8 +-
 literal_data.cpp                                 |  28 +-
 literal_data.h                                   |  28 +-
 literal_impl.cpp                                 |  26 +-
 literal_impl.h                                   |  20 +-
 number_lexer.h                                   |  62 ++--
 port.h                                           |  59 ++++
 primitive.cpp                                    |  14 +-
 primitive.h                                      |  26 +-
 sublexer_impl.cpp                                |  82 ++---
 sublexer_impl.h                                  |  28 +-
 test/Makefile.am                                 |  16 +-
 test/cons_test.cpp                               |   6 +-
 test/environment_test.cpp                        |   8 +-
 test/sublexer_test.cpp                           |   4 +-
 test/{utf8_string_test.cpp => unicode_test.cpp}  |  44 +--
 test/{utf8_test.cpp => utf8_transcoder_test.cpp} |   0
 transcoder.h                                     |  30 ++
 tree.cpp                                         |   4 +-
 tree.h                                           |   6 +-
 unicode.cpp                                      | 242 +++++++++++++++
 unicode.h                                        | 168 ++++++++++
 utf8.cpp                                         | 379 -----------------------
 utf8.h                                           | 135 --------
 utf8_string.cpp                                  | 275 ----------------
 utf8_string.h                                    | 210 -------------
 utf8_transcoder.cpp                              | 251 +++++++++++++++
 utf8_transcoder.h                                |  94 ++++++
 38 files changed, 1294 insertions(+), 1309 deletions(-)
 create mode 100644 binary_port.cpp
 create mode 100755 binary_port.h
 mode change 100644 => 100755 delimiter.cpp
 mode change 100644 => 100755 delimiter.h
 mode change 100644 => 100755 number_lexer.h
 create mode 100755 port.h
 mode change 100644 => 100755 primitive.cpp
 mode change 100644 => 100755 test/sublexer_test.cpp
 rename test/{utf8_string_test.cpp => unicode_test.cpp} (68%)
 mode change 100644 => 100755
 rename test/{utf8_test.cpp => utf8_transcoder_test.cpp} (100%)
 create mode 100755 transcoder.h
 create mode 100755 unicode.cpp
 create mode 100755 unicode.h
 delete mode 100755 utf8.cpp
 delete mode 100755 utf8.h
 delete mode 100644 utf8_string.cpp
 delete mode 100755 utf8_string.h
 create mode 100755 utf8_transcoder.cpp
 create mode 100755 utf8_transcoder.h

diff --git a/.gitignore b/.gitignore
index 7fefbaf..e9b1e15 100644
--- a/.gitignore
+++ b/.gitignore
@@ -23,3 +23,4 @@ utakata
 /test/utf8_test
 /test/syntax_tree_test
 /test/environment_test
+/test/utf8_transcoder_test
diff --git a/binary_port.cpp b/binary_port.cpp
new file mode 100644
index 0000000..435615b
--- /dev/null
+++ b/binary_port.cpp
@@ -0,0 +1,88 @@
+#include "binary_port.h"
+
+using namespace utakata;
+using namespace utakata::port;
+
+BinaryInputPort::BinaryInputPort(smart_ptr<std::istream>& s) : stream_(s)
+{
+}
+
+int BinaryInputPort::read()
+{
+    // ç¾å¨å©ç¨ä¿æãã¦ããstreamãã1ãã¤ãåã ãèª­åºãã
+    // eofã®å ´åãstd::istream::traits_type::eofãè¿ãã
+
+    validate();
+    
+    if (stream_->eof() || !stream_->ready())
+    {
+        return std::istream::traits_type::eof;
+    }
+
+    return stream_->read();
+}
+
+std::vector<int> BinaryInputPort::read(size_t num)
+{
+    // æå®ãããµã¤ãºåã®byteãèª­åºãã
+    // æå®ãµã¤ãºãèª­ã¿åºãããããeofã«ãªã£ãå ´åã«ã¯ãeofã¯è¿ããªãã
+    validate();
+    
+    if (num <= 0)
+    {
+        throw PortException("must be greater than zero of read size");
+    }
+
+    if (stream_->eof() || !stream_->ready())
+    {
+        return std::vector<int>();
+    }
+
+    std::vector<int> ret();
+    for (int i = 0; i < num; ++i)
+    {
+        int tmp = stream_->read();
+        if (tmp == std::istream::traits_type::eof)
+        {
+            break;
+        }
+        ret.push_back(tmp);
+    }
+
+    return ret;
+}
+
+int BinaryInputPort::peek()
+{
+    // åºæ¬çã«ã¯peekããã®ã¾ã¾å©ç¨ãããã
+    validate();
+    
+    if (stream_->eof() || !stream_->ready())
+    {
+        return std::istream::traits_type::eof;
+    }
+
+    return stream_->peek();
+}
+
+void BinaryInputPort::unget(int ch)
+{
+    // æ¸¡ããchãåã«æ»ããæåããªãå ´åã«ã¯ä¾å¤ãçºçããã
+    validate();
+    stream_->unget(ch);
+}
+
+bool BinaryInputPort::isEOF()
+{
+    // ç¾å¨streamãçµç«¯ãã©ãããè¿ãã
+    validate();
+    return stream_->eof();
+}
+
+void BinaryInputPort::validate()
+{
+    if (stream_.isNull())
+    {
+        throw PortException("stream must valid instantce but NULL!");
+    }
+}
diff --git a/binary_port.h b/binary_port.h
new file mode 100755
index 0000000..487aaf4
--- /dev/null
+++ b/binary_port.h
@@ -0,0 +1,51 @@
+#ifndef _BINARY_PORT_H_
+#define _BINARY_PORT_H_
+
+#include <iostream>
+#include <vector>
+
+#include "port.h"
+#include "smart_ptr.h"
+
+namespace utakata {
+
+    namespace port {
+
+        class BinaryInputPort : public IInputPort
+        {
+            // æ¸¡ãããistreamãã1ãã¤ãã ãèª­ã¿åãã
+            // èª­ã¿åºããéãstd::istream::traits_type::eofã§ãã
+            // å ´åãportãæ«å°¾ã«å°éãã¦ããã
+        public:
+
+            // å©ç¨ããistreamãæå®ããã
+            BinaryInputPort(smart_ptr<std::istream>& s);
+            virtual ~BinaryInputPort() {}
+
+            virtual int read();
+            virtual std::vector<int> read(size_t num);
+
+            virtual int peek();
+
+            // ç¾å¨streamã®ã©ãã¾ã§ãèª­ãã§ããã®ããè¿ãã
+            virtual size_t pos();
+
+            // æ¸¡ãããvectorãstreamã«æ»ãã
+            virtual void unget(int ch);
+
+            // ç¾å¨ã®portãçµäºæç¹ãã©ãããè¿ãã
+            virtual bool isEOF();
+
+        private:
+
+            // åé¨ã®validãã§ãã¯ãè¡ãã
+            // validãã§ãã¯ã¯æåããªãå ´åã«ã¯PortExceptionãçºçããã
+            void validate();
+
+            smart_ptr<std::istream> stream_;
+        };
+    };
+
+};
+
+#endif /* _BINARY_PORT_H_ */
diff --git a/delimiter.cpp b/delimiter.cpp
old mode 100644
new mode 100755
index 2211d48..387927f
--- a/delimiter.cpp
+++ b/delimiter.cpp
@@ -2,7 +2,7 @@
 
 using namespace utakata::lexer_delimiter;
 
-bool Normal::operator()(const utakata::utf8_string::UTF8Char& ch)
+bool Normal::operator()(const utakata::unicode::UniChar& ch)
 {
     // æ¸¡ãããæå­ãããªãã¿ãã©ãããè¿ãã
         // æ¸¡ãããæå­ãããªãã¿ãã©ãããå¤å¥ããã
@@ -35,7 +35,7 @@ bool Normal::operator()(const utakata::utf8_string::UTF8Char& ch)
     }
 }
 
-bool Whitespace::operator()(const utakata::utf8_string::UTF8Char& ch)
+bool Whitespace::operator()(const utakata::unicode::UniChar& ch)
 {
     switch (ch.toUTF16Code())
     {
@@ -51,7 +51,7 @@ bool Whitespace::operator()(const utakata::utf8_string::UTF8Char& ch)
     }
 }
 
-bool LineEnding::operator()(const utakata::utf8_string::UTF8Char& ch,
+bool LineEnding::operator()(const utakata::unicode::UniChar& ch,
                             smart_ptr<utakata::utf8::UTF8InputStream>& strm)
 {
     // ä»ã®æå­ã¨ãæ¬¡ã®æå­ã¨ãå©ç¨ãã¦ãã§ãã¯ããã
@@ -61,7 +61,7 @@ bool LineEnding::operator()(const utakata::utf8_string::UTF8Char& ch,
     case '\r':
         //æ¬¡ã®æå­ãå¿è¦ã«ãªãã
     {
-        utakata::utf8_string::UTF8Char ch2(strm->peek());
+        utakata::unicode::UniChar ch2(strm->peek());
         if (ch2.toUTF16Code() == '\n')
         {
             strm->read();
@@ -73,7 +73,7 @@ bool LineEnding::operator()(const utakata::utf8_string::UTF8Char& ch,
     }
 }
 
-bool HexValue::operator()(const utakata::utf8_string::UTF8Char& ch)
+bool HexValue::operator()(const utakata::unicode::UniChar& ch)
 {
     if (ch.toUTF16Code() >= 'a' && ch.toUTF16Code() <= 'f')
     {
@@ -85,10 +85,10 @@ bool HexValue::operator()(const utakata::utf8_string::UTF8Char& ch)
     }
 
     // æå¾ã«æ°å¤ã ãã®å¤å®ãè¿ãã
-    return utakata::utf8_string::is_numeric(ch);
+    return utakata::unicode::is_numeric(ch);
 }
 
-bool String::operator()(const utakata::utf8_string::UTF8Char& ch)
+bool String::operator()(const utakata::unicode::UniChar& ch)
 {
     if (ch.toUTF16Code() == '"')
     {
@@ -97,7 +97,7 @@ bool String::operator()(const utakata::utf8_string::UTF8Char& ch)
     return false;
 }
 
-bool Prefix::operator()(const utakata::utf8_string::UTF8String& str)
+bool Prefix::operator()(const utakata::unicode::UniString& str)
 {
     std::string s = str.toStr();
 
@@ -111,7 +111,7 @@ bool Prefix::operator()(const utakata::utf8_string::UTF8String& str)
     return false;
 }
 
-bool Exactness::operator()(const utakata::utf8_string::UTF8String& str)
+bool Exactness::operator()(const utakata::unicode::UniString& str)
 {
     std::string s = str.toStr();
 
diff --git a/delimiter.h b/delimiter.h
old mode 100644
new mode 100755
index d64a999..c0ef4df
--- a/delimiter.h
+++ b/delimiter.h
@@ -1,7 +1,7 @@
 #ifndef _DELIMITER_H_
 #define _DELIMITER_H_
 
-#include "utf8_string.h"
+#include "unicode.h"
 #include "smart_ptr.h"
 #include "utf8.h"
 
@@ -17,7 +17,7 @@ namespace utakata {
         {
             // éå¸¸ã®ããªãã¿ã¨ãã¦å¦çããã¹ãããªãã¿ä¸è¦§ãè¿ãã
         public:
-            bool operator()(const utakata::utf8_string::UTF8Char& ch);
+            bool operator()(const utakata::unicode::UniChar& ch);
 
         };
 
@@ -25,7 +25,7 @@ namespace utakata {
         {
             // ç©ºç½ã¨ãã¦èªè­ãããæå­ã§ãããã©ãããè¿ãã
         public:
-            bool operator()(const utakata::utf8_string::UTF8Char& ch);
+            bool operator()(const utakata::unicode::UniChar& ch);
         };
 
         class LineEnding
@@ -34,7 +34,7 @@ namespace utakata {
             // ä½ããæ¬¡ã®æå­ãå«ãæ¹è¡ã§ããå ´åãããããã
             // ã¾ã¨ãã¦èª¿ã¹ããããstreamãå¿è¦ã¨ããã
         public:
-            bool operator()(const utakata::utf8_string::UTF8Char& ch,
+            bool operator()(const utakata::unicode::UniChar& ch,
                             smart_ptr<utf8::UTF8InputStream>& strm);
         };
 
@@ -42,28 +42,28 @@ namespace utakata {
         {
             // æå­åãåå²ããããã®ããªãã¿ãå®ç¾©ããã
         public:
-            bool operator()(const utakata::utf8_string::UTF8Char& ch);
+            bool operator()(const utakata::unicode::UniChar& ch);
         };
 
         class Prefix
         {
             // <number>ã®ãã¬ãã£ãã¯ã¹ãèª¿æ»ããã
         public:
-            bool operator()(const utakata::utf8_string::UTF8String& str);
+            bool operator()(const utakata::unicode::UniString& str);
         };
 
         class Exactness
         {
             // <number>ã®æ­£ç¢ºæ§ãèª¿æ»ããã
         public:
-            bool operator()(const utakata::utf8_string::UTF8String& str);
+            bool operator()(const utakata::unicode::UniString& str);
         };
 
         class HexValue
         {
             // 16é²æ°ã§å©ç¨å¯è½ãªæå­ã®ç¯å²ã§ãããã©ãããè¿ãã
         public:
-            bool operator()(const utakata::utf8_string::UTF8Char& ch);
+            bool operator()(const utakata::unicode::UniChar& ch);
         };
     };
 
diff --git a/lexeme.h b/lexeme.h
index eb76911..bec515a 100755
--- a/lexeme.h
+++ b/lexeme.h
@@ -5,8 +5,8 @@
 
 namespace utakata {
 
-    namespace utf8_string {
-        class UTF8String;
+    namespace unicode {
+        class UniString;
     };
 
     namespace literal {
@@ -29,7 +29,7 @@ namespace utakata {
             virtual const LexemeID getID() const = 0;
             
             // stringã®ãã¼ã¿åã«ããã¦ãæå­åãåå¾ããã
-            virtual smart_ptr<utakata::utf8_string::UTF8String> toString() const = 0;
+            virtual smart_ptr<utakata::unicode::UniString> toString() const = 0;
   
             // ãªãã©ã«ã¨ãã¦æ±ãããã®ãã¼ã¿ãåå¾ãããåãªãã©ã«ã®ãã¡ã
             // lexeme Datumã¨ãã¦æ±ããã¨ãã§ãããã¼ã¿ã«ã¤ãã¦ã¯ãããã¨ãªãã
diff --git a/lexeme_impl.cpp b/lexeme_impl.cpp
index e93b2df..1d79757 100755
--- a/lexeme_impl.cpp
+++ b/lexeme_impl.cpp
@@ -7,151 +7,151 @@
 #include "literal_data.h"
 
 using namespace utakata::lexeme;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 using namespace utakata::literal;
 
 ////////////////////////
-// ålexemeçæé¢æ°   //
+// è·ï¿½exemeéæ»ï¿½é«¢ï½¢è¬¨ï½°   //
 ////////////////////////
 smart_ptr<ILexeme> utakata::lexeme::makeOpenParen()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(convert("(")));
+    smart_ptr<UniString> tmp(new UniString(convert("(")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp, LexemeID::openParenthesis));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeEOS()
 {
-    return smart_ptr<ILexeme>(new PureLexeme(smart_ptr<UTF8String>(), LexemeID::eos));
+    return smart_ptr<ILexeme>(new PureLexeme(smart_ptr<UniString>(), LexemeID::eos));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeCloseParen()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert(")")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert(")")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::closeParenthesis));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeBackQuote()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("`")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("`")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::backquote));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeQuote()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("'")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("'")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::quote));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeDot()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert(".")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert(".")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::dot));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeIdentifier(const utakata::utf8_string::UTF8String& str)
+smart_ptr<ILexeme> utakata::lexeme::makeIdentifier(const utakata::unicode::UniString& str)
 {
     return smart_ptr<ILexeme>(new Identifier(str));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeString(const utakata::utf8_string::UTF8String& str)
+smart_ptr<ILexeme> utakata::lexeme::makeString(const utakata::unicode::UniString& str)
 {
     return smart_ptr<ILexeme>(new String(str));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeUnquoteSplicing()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert(",@")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert(",@")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::unquoteSplicing));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeUnquote()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert(",")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert(",")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::unquote));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeByteVector()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#vu(")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#vu(")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::byteVector));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeVector()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#(")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#(")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::vector));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeSyntax()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#'")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#'")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::syntax));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeQuasiSyntax()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#`")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#`")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::quasiSyntax));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeUnsyntaxSplicing()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#,@")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#,@")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::unsyntaxSplicing));
 }
 
 smart_ptr<ILexeme> utakata::lexeme::makeUnsyntax()
 {
-    smart_ptr<UTF8String> tmp(new UTF8String(utf8_string::convert("#,")));
+    smart_ptr<UniString> tmp(new UniString(unicode::convert("#,")));
     return smart_ptr<ILexeme>(new PureLexeme(tmp,
                                              LexemeID::unsyntax));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeCharactor(const utakata::utf8_string::UTF8Char& str)
+smart_ptr<ILexeme> utakata::lexeme::makeCharactor(const utakata::unicode::UniChar& str)
 {
     return smart_ptr<ILexeme>(new Charactor(str));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeBoolean(smart_ptr<utakata::utf8_string::UTF8Char> ch)
+smart_ptr<ILexeme> utakata::lexeme::makeBoolean(smart_ptr<utakata::unicode::UniChar> ch)
 {
     return smart_ptr<ILexeme>(new Boolean(ch));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeNanImaginary(const utakata::utf8_string::UTF8String& str,
+smart_ptr<ILexeme> utakata::lexeme::makeNanImaginary(const utakata::unicode::UniString& str,
                                                      bool exact)
 {
-    return smart_ptr<ILexeme>(new Number(utakata::utf8_string::UTF8String(),
+    return smart_ptr<ILexeme>(new Number(utakata::unicode::UniString(),
                                          str, exact, 10));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeInfImaginary(const utakata::utf8_string::UTF8String& str,
+smart_ptr<ILexeme> utakata::lexeme::makeInfImaginary(const utakata::unicode::UniString& str,
                                                      bool exact)
 {
-    return smart_ptr<ILexeme>(new Number(utakata::utf8_string::UTF8String(),
+    return smart_ptr<ILexeme>(new Number(utakata::unicode::UniString(),
                                          str, exact, 10));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeImaginaryOnly(const utakata::utf8_string::UTF8String& str,
+smart_ptr<ILexeme> utakata::lexeme::makeImaginaryOnly(const utakata::unicode::UniString& str,
                                                       bool exact)
 {
 
-    return smart_ptr<ILexeme>(new Number(utakata::utf8_string::UTF8String(),
+    return smart_ptr<ILexeme>(new Number(utakata::unicode::UniString(),
                                          str, exact, 10));
 }
 
-smart_ptr<ILexeme> utakata::lexeme::makeNumber(const utakata::utf8_string::UTF8String& real,
-                                               const utakata::utf8_string::UTF8String& imagin,
+smart_ptr<ILexeme> utakata::lexeme::makeNumber(const utakata::unicode::UniString& real,
+                                               const utakata::unicode::UniString& imagin,
                                                bool exact, int radix)
 {
     return smart_ptr<ILexeme>(new Number(real, imagin, exact, radix));
@@ -161,7 +161,7 @@ smart_ptr<ILexeme> utakata::lexeme::makeNumber(const utakata::utf8_string::UTF8S
 // PureLexeme //
 ////////////////
 
-PureLexeme::PureLexeme(smart_ptr<UTF8String> str,
+PureLexeme::PureLexeme(smart_ptr<UniString> str,
                        lexeme::LexemeID id) : str_(str), id_(id)
 {}
 
@@ -170,7 +170,7 @@ const LexemeID PureLexeme::getID() const
     return id_;
 }
 
-smart_ptr<UTF8String> PureLexeme::toString() const
+smart_ptr<UniString> PureLexeme::toString() const
 {
     return str_;
 }
@@ -184,8 +184,8 @@ smart_ptr<utakata::literal::LiteralData> PureLexeme::getData() const
 // Identifier //
 ////////////////
 
-Identifier::Identifier(const utakata::utf8_string::UTF8String& str) :
-    str_(new utakata::utf8_string::UTF8String(str))
+Identifier::Identifier(const utakata::unicode::UniString& str) :
+    str_(new utakata::unicode::UniString(str))
 {
 }
 
@@ -194,7 +194,7 @@ const utakata::lexeme::LexemeID Identifier::getID() const
     return utakata::lexeme::LexemeID::identifier;
 }
 
-smart_ptr<utakata::utf8_string::UTF8String> Identifier::toString() const
+smart_ptr<utakata::unicode::UniString> Identifier::toString() const
 {
     return str_;
 }
@@ -208,8 +208,8 @@ smart_ptr<utakata::literal::LiteralData> Identifier::getData() const
 // String  //
 /////////////
 
-String::String(const utakata::utf8_string::UTF8String& str) :
-    str_(new utakata::utf8_string::UTF8String(str))
+String::String(const utakata::unicode::UniString& str) :
+    str_(new utakata::unicode::UniString(str))
 {
 }
 
@@ -218,7 +218,7 @@ const utakata::lexeme::LexemeID String::getID() const
     return utakata::lexeme::LexemeID::string;
 }
 
-smart_ptr<utakata::utf8_string::UTF8String> String::toString() const
+smart_ptr<utakata::unicode::UniString> String::toString() const
 {
     return str_;
 }
@@ -232,8 +232,8 @@ smart_ptr<utakata::literal::LiteralData> String::getData() const
 // Number //
 ////////////
 
-Number::Number(const UTF8String& real,
-               const UTF8String& imagin,
+Number::Number(const UniString& real,
+               const UniString& imagin,
                bool exact, int radix) :
     data_(new LiteralData)
 {
@@ -245,9 +245,9 @@ const utakata::lexeme::LexemeID Number::getID() const
     return utakata::lexeme::LexemeID::number;
 }
 
-smart_ptr<utakata::utf8_string::UTF8String> Number::toString() const
+smart_ptr<utakata::unicode::UniString> Number::toString() const
 {
-    return smart_ptr<UTF8String>(new UTF8String(*data_->number->real + *data_->number->imagin));
+    return smart_ptr<UniString>(new UniString(*data_->number->real + *data_->number->imagin));
 }
 
 smart_ptr<utakata::literal::LiteralData> Number::getData() const
@@ -259,7 +259,7 @@ smart_ptr<utakata::literal::LiteralData> Number::getData() const
 // Charactor //
 ///////////////
 
-Charactor::Charactor(const UTF8Char& ch) : ch_(new UTF8Char(ch))
+Charactor::Charactor(const UniChar& ch) : ch_(new UniChar(ch))
 {
 }
 
@@ -268,9 +268,9 @@ const utakata::lexeme::LexemeID Charactor::getID() const
     return utakata::lexeme::LexemeID::charactor;
 }
 
-smart_ptr<utakata::utf8_string::UTF8String> Charactor::toString() const
+smart_ptr<utakata::unicode::UniString> Charactor::toString() const
 {
-    smart_ptr<utakata::utf8_string::UTF8String> c(new utakata::utf8_string::UTF8String(ch_));
+    smart_ptr<utakata::unicode::UniString> c(new utakata::unicode::UniString(ch_));
     return c;
 }
 
@@ -283,7 +283,7 @@ smart_ptr<utakata::literal::LiteralData> Charactor::getData() const
 // Boolean //
 /////////////
 
-Boolean::Boolean(smart_ptr<UTF8Char> ch) : bool_(new UTF8String())
+Boolean::Boolean(smart_ptr<UniChar> ch) : bool_(new UniString())
 {
     *bool_ += "#";
     *bool_ += *ch;
@@ -294,7 +294,7 @@ const utakata::lexeme::LexemeID Boolean::getID() const
     return utakata::lexeme::LexemeID::boolean;
 }
 
-smart_ptr<utakata::utf8_string::UTF8String> Boolean::toString() const
+smart_ptr<utakata::unicode::UniString> Boolean::toString() const
 {
     return bool_;
 }
diff --git a/lexeme_impl.h b/lexeme_impl.h
index 6e1b5c3..100f663 100755
--- a/lexeme_impl.h
+++ b/lexeme_impl.h
@@ -7,7 +7,7 @@
 #include "smart_ptr.h"
 #include "function_callback.h"
 
-#include "utf8_string.h"
+#include "unicode.h"
 #include "lexeme_id.h"
 
 // lexeme ã®æ§ããªå®è£ãå®ç¾©ãã.
@@ -31,19 +31,19 @@ namespace utakata {
         smart_ptr<ILexeme> makeUnsyntax ();
         smart_ptr<ILexeme> makeByteVector ();
         smart_ptr<ILexeme> makeVector ();
-        smart_ptr<ILexeme> makeIdentifier (const utakata::utf8_string::UTF8String& str);
-        smart_ptr<ILexeme> makeString (const utakata::utf8_string::UTF8String& str);
-        smart_ptr<ILexeme> makeNumber (const utakata::utf8_string::UTF8String& real,
-                                      const utakata::utf8_string::UTF8String& imaginary,
+        smart_ptr<ILexeme> makeIdentifier (const utakata::unicode::UniString& str);
+        smart_ptr<ILexeme> makeString (const utakata::unicode::UniString& str);
+        smart_ptr<ILexeme> makeNumber (const utakata::unicode::UniString& real,
+                                      const utakata::unicode::UniString& imaginary,
                                       bool exact, int radix);
-        smart_ptr<ILexeme> makeCharactor (const utakata::utf8_string::UTF8String& str);
-        smart_ptr<ILexeme> makeNanImaginary (const utakata::utf8_string::UTF8String& str,
+        smart_ptr<ILexeme> makeCharactor (const utakata::unicode::UniString& str);
+        smart_ptr<ILexeme> makeNanImaginary (const utakata::unicode::UniString& str,
                                             bool exact);
-        smart_ptr<ILexeme> makeInfImaginary (const utakata::utf8_string::UTF8String& str,
+        smart_ptr<ILexeme> makeInfImaginary (const utakata::unicode::UniString& str,
                                             bool exact);
-        smart_ptr<ILexeme> makeImaginaryOnly (const utakata::utf8_string::UTF8String& str,
+        smart_ptr<ILexeme> makeImaginaryOnly (const utakata::unicode::UniString& str,
                                              bool exact);
-        smart_ptr<ILexeme> makeBoolean (smart_ptr<utakata::utf8_string::UTF8Char> ch);
+        smart_ptr<ILexeme> makeBoolean (smart_ptr<utakata::unicode::UniChar> ch);
 
 
         ////////////////////////////////////////////
@@ -55,18 +55,18 @@ namespace utakata {
             // LiteralDataãå¿è¦ã¨ããªããã¼ã¿ã«å¯¾ãã¦å¦çãè¡ãããã®ã¯ã©ã¹ã
             // æå­åã¨è©²å½ããLexemeIDãæ¸¡ããã¨ã§å®ç¾ããã
         public:
-            PureLexeme(smart_ptr<utakata::utf8_string::UTF8String> str,
+            PureLexeme(smart_ptr<utakata::unicode::UniString> str,
                        lexeme::LexemeID id);
 
             virtual ~PureLexeme() {}
 
             const lexeme::LexemeID getID() const ;
-            smart_ptr<utakata::utf8_string::UTF8String> toString() const;
+            smart_ptr<utakata::unicode::UniString> toString() const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8String> str_;
+            smart_ptr<utakata::unicode::UniString> str_;
             lexeme::LexemeID id_;
         };
 
@@ -78,15 +78,15 @@ namespace utakata {
         {
         public:
             
-            String (const utakata::utf8_string::UTF8String& ident);
+            String (const utakata::unicode::UniString& ident);
             virtual ~String (){}
             const lexeme::LexemeID getID () const;
-            smart_ptr<utakata::utf8_string::UTF8String> toString () const;
+            smart_ptr<utakata::unicode::UniString> toString () const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8String> str_;
+            smart_ptr<utakata::unicode::UniString> str_;
 
         };
 
@@ -98,15 +98,15 @@ namespace utakata {
         {
         public:
             
-            Identifier (const utakata::utf8_string::UTF8String& ident);
+            Identifier (const utakata::unicode::UniString& ident);
             virtual ~Identifier (){}
             const lexeme::LexemeID getID () const;
-            smart_ptr<utakata::utf8_string::UTF8String> toString () const;
+            smart_ptr<utakata::unicode::UniString> toString () const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
             
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8String> str_;
+            smart_ptr<utakata::unicode::UniString> str_;
 
         };
 
@@ -117,11 +117,11 @@ namespace utakata {
         class Number : public ILexeme
         {
         public:
-            Number (const utf8_string::UTF8String& real, const utf8_string::UTF8String& imagin,
+            Number (const unicode::UniString& real, const unicode::UniString& imagin,
                    bool exact, int radix);
             virtual ~Number (){}
             const lexeme::LexemeID getID () const;
-            smart_ptr<utakata::utf8_string::UTF8String> toString () const;
+            smart_ptr<utakata::unicode::UniString> toString () const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
         private:
 
@@ -135,16 +135,16 @@ namespace utakata {
         class Charactor : public ILexeme
         {
         public:
-            Charactor (const utf8_string::UTF8String& ch);
+            Charactor (const unicode::UniString& ch);
             virtual ~Charactor (){}
 
             const lexeme::LexemeID getID () const;
-            smart_ptr<utakata::utf8_string::UTF8String> toString() const;
+            smart_ptr<utakata::unicode::UniString> toString() const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8String> ch_;
+            smart_ptr<utakata::unicode::UniString> ch_;
         };
 
         /////////////
@@ -154,15 +154,15 @@ namespace utakata {
         class Boolean : public ILexeme
         {
         public:
-            Boolean (smart_ptr<utf8_string::UTF8Char> ch);
+            Boolean (smart_ptr<unicode::UniChar> ch);
             virtual ~Boolean (){}
 
             const lexeme::LexemeID getID () const;
-            smart_ptr<utakata::utf8_string::UTF8String> toString () const;
+            smart_ptr<utakata::unicode::UniString> toString () const;
             smart_ptr<utakata::literal::LiteralData> getData() const;
 
         private:
-            smart_ptr<utf8_string::UTF8String> bool_;
+            smart_ptr<unicode::UniString> bool_;
         };
 
     };
diff --git a/lexer.h b/lexer.h
index 0760090..9deac60 100755
--- a/lexer.h
+++ b/lexer.h
@@ -3,7 +3,7 @@
 
 #include "smart_ptr.h"
 #include "utf8.h"
-#include "utf8_string.h"
+#include "unicode.h"
 #include "lexeme.h"
 
 #include <exception>
diff --git a/literal.cpp b/literal.cpp
index f2222e3..c376fe9 100755
--- a/literal.cpp
+++ b/literal.cpp
@@ -1,18 +1,18 @@
 #include "literal.h"
 #include "literal_impl.h"
 
-#include "utf8_string.h"
+#include "unicode.h"
 #include "datum_id.h"
 #include "literal_data.h"
 #include "lexeme_impl.h"
 #include "lexeme_id.h"
 
 using namespace utakata::lexeme;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 using namespace utakata::syntax;
 using namespace utakata::literal;
 
-smart_ptr<UTF8String> Literal::toValue()
+smart_ptr<UniString> Literal::toValue()
 {
     // åé¨å®è£ãåºã«ãã¼ã¿ãåºåããã
     return toValue_();
@@ -30,7 +30,7 @@ DatumID Literal::getID() const
 
 smart_ptr<Literal> utakata::literal::generateLiteral(smart_ptr<ILexeme> l)
 {
-    smart_ptr<UTF8String> s;
+    smart_ptr<UniString> s;
     
     switch (l->getID().toEnum())
     {
@@ -45,43 +45,43 @@ smart_ptr<Literal> utakata::literal::generateLiteral(smart_ptr<ILexeme> l)
     case LexemeID::IDENTIFIER:
         return smart_ptr<Literal>(new utakata::literal::Symbol(l->getData()));
     case LexemeID::BACKQUOTE:
-        s.add(new UTF8String(convert("backquote")));
+        s.add(new UniString(convert("backquote")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::QUOTE:
-        s.add(new UTF8String(convert("quote")));
+        s.add(new UniString(convert("quote")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::UNQUOTE:
-        s.add(new UTF8String(convert("unquote")));
+        s.add(new UniString(convert("unquote")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::UNQUOTESPLICING:
-        s.add(new UTF8String(convert("unquote-splicing")));
+        s.add(new UniString(convert("unquote-splicing")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::SYNTAX:
-        s.add(new UTF8String(convert("syntax")));
+        s.add(new UniString(convert("syntax")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::QUASISYNTAX:
-        s.add(new UTF8String(convert("quasisyntax")));
+        s.add(new UniString(convert("quasisyntax")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::UNSYNTAX:
-        s.add(new UTF8String(convert("unsyntax")));
+        s.add(new UniString(convert("unsyntax")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
     case LexemeID::UNSYNTAXSPLICING:
 
-        s.add(new UTF8String(convert("unsyntax-splicing")));
+        s.add(new UniString(convert("unsyntax-splicing")));
         return smart_ptr<Literal>(new utakata::literal::Abbreviation(
                                       l->toString(),
                                       s));
diff --git a/literal.h b/literal.h
index 1c631b5..2c7b89f 100755
--- a/literal.h
+++ b/literal.h
@@ -16,8 +16,8 @@ namespace utakata {
     
     };
 
-    namespace utf8_string {
-        class UTF8String;
+    namespace unicode {
+        class UniString;
     };
     
     namespace literal {
@@ -37,14 +37,14 @@ namespace utakata {
             Literal() {}
             virtual ~Literal() {}
 
-            smart_ptr<utf8_string::UTF8String> toValue();
+            smart_ptr<unicode::UniString> toValue();
 
             const smart_ptr<LiteralData>& getData() const;
             syntax::DatumID getID() const;
 
         private:
 
-            virtual smart_ptr<utf8_string::UTF8String> toValue_() = 0;
+            virtual smart_ptr<unicode::UniString> toValue_() = 0;
             virtual const smart_ptr<LiteralData>& getData_() const = 0;
             virtual syntax::DatumID getID_() const = 0;
 
diff --git a/literal_data.cpp b/literal_data.cpp
index 4aa4c01..488f9fd 100755
--- a/literal_data.cpp
+++ b/literal_data.cpp
@@ -1,59 +1,59 @@
 #include "literal_data.h"
-#include "utf8_string.h"
+#include "unicode.h"
 
 using namespace utakata::literal;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 
-smart_ptr<LiteralData> utakata::literal::makeString(const utf8_string::UTF8String& str)
+smart_ptr<LiteralData> utakata::literal::makeString(const unicode::UniString& str)
 {
     // stringãåé¨ã«çæãã¦è¿ãã®ã¿ã
     smart_ptr<LiteralData> ret(new LiteralData);
     ret->string.add(new StringData);
-    ret->string->str.add(new UTF8String(str));
+    ret->string->str.add(new UniString(str));
     return ret;
 }
 
-smart_ptr<LiteralData> utakata::literal::makeNumber(const utf8_string::UTF8String& real,
-                                                    const utf8_string::UTF8String& imagin,
+smart_ptr<LiteralData> utakata::literal::makeNumber(const unicode::UniString& real,
+                                                    const unicode::UniString& imagin,
                                                     bool exact, bool radix)
 {
     // numberãåé¨ã«çæãã¦è¿ãã®ã¿ã
     smart_ptr<LiteralData> ret(new LiteralData);
     ret->number.add(new NumberData);
-    ret->number->real.add(new UTF8String(real));
-    ret->number->imagin.add(new UTF8String(imagin));
+    ret->number->real.add(new UniString(real));
+    ret->number->imagin.add(new UniString(imagin));
     ret->number->exact = exact;
     ret->number->radix = radix;
 
     return ret;
 }
 
-smart_ptr<LiteralData> utakata::literal::makeBoolean(const utf8_string::UTF8String& str,
+smart_ptr<LiteralData> utakata::literal::makeBoolean(const unicode::UniString& str,
                                                      bool boolean)
 {
     // booleanãåé¨ã«çæãã¦è¿ãã®ã¿ã
     smart_ptr<LiteralData> ret(new LiteralData);
     ret->boolean.add(new BooleanData);
-    ret->boolean->str.add(new UTF8String(str));
+    ret->boolean->str.add(new UniString(str));
     ret->boolean->boolean = boolean;
     return ret;
 }
 
-smart_ptr<LiteralData> utakata::literal::makeCharactor(const utf8_string::UTF8Char& ch)
+smart_ptr<LiteralData> utakata::literal::makeCharactor(const unicode::UniChar& ch)
 {
     // charactorãåé¨ã«çæãããcharactorã¯ãåã¨ãªãæå­åããã
     // å¯¾å¿ããUTF-8ã®æå­ã³ã¼ããçæããã
     smart_ptr<LiteralData> ret(new LiteralData);
     ret->charactor.add(new CharactorData);
-    ret->charactor->spec.add(new UTF8Char(ch));
+    ret->charactor->spec.add(new UniChar(ch));
     return ret;
 }
 
-smart_ptr<LiteralData> utakata::literal::makeSymbol(const utf8_string::UTF8String& str)
+smart_ptr<LiteralData> utakata::literal::makeSymbol(const unicode::UniString& str)
 {
     // symnbolãåé¨ã«çæãã¦è¿ãã®ã¿ã
     smart_ptr<LiteralData> ret(new LiteralData);
     ret->symbol.add(new SymbolData);
-    ret->symbol->id.add(new UTF8String(str));
+    ret->symbol->id.add(new UniString(str));
     return ret;
 }
diff --git a/literal_data.h b/literal_data.h
index 394a61a..13aeeda 100755
--- a/literal_data.h
+++ b/literal_data.h
@@ -6,9 +6,9 @@
 
 namespace utakata {
 
-    namespace utf8_string {
+    namespace unicode {
     
-        class UTF8String;
+        class UniString;
     
     };
 
@@ -17,7 +17,7 @@ namespace utakata {
         struct StringData
         {
             // æå­åãä¿æããããã®ãã¼ã¿å. ããã«ãã®ã¾ã¾.
-            smart_ptr<utf8_string::UTF8String> str;
+            smart_ptr<unicode::UniString> str;
         };
 
         struct NumberData
@@ -26,8 +26,8 @@ namespace utakata {
             // æ°å¤ãã¼ã¿ã¯, ããããå®æ°é¨åã¨èæ°é¨å, ããã¦
             // æ­£ç¢ºæ§ã¨ radix ãå®ç¾©ããå¿è¦ããã.
             // radix = 10 ã§ã¯ãªãå ´å, å¸¸ã« exact = true ã¨ãã¦æ¯ãèã.
-            smart_ptr<utf8_string::UTF8String> real;
-            smart_ptr<utf8_string::UTF8String> imagin;
+            smart_ptr<unicode::UniString> real;
+            smart_ptr<unicode::UniString> imagin;
             bool exact;
             int radix;
         };
@@ -37,20 +37,20 @@ namespace utakata {
             // Boolean ãè¡¨ããã¼ã¿. ããã§ã¯ bool åã®å¤æ°ã«ãã£ã¦#t ã¨#f ãè¡¨ç¾
             // ãããã¨ã«ãã.
             bool boolean;
-            smart_ptr<utf8_string::UTF8String> str;
+            smart_ptr<unicode::UniString> str;
         };
 
         struct CharactorData
         {
             // Charactor ãæ§æããããã®ãã¼ã¿.
             // ãã®æç¹ã§ãæ¸¡ãããæå­åããæ°å¤ã«å¤æãå®äºãã¦ãããã®ã¨ããã
-            smart_ptr<utf8_string::UTF8Char> spec;
+            smart_ptr<unicode::UniChar> spec;
         };
 
         struct SymbolData
         {
             // ã·ã³ãã«ãæ§æããããã®ãã¼ã¿.
-            smart_ptr<utf8_string::UTF8String> id;
+            smart_ptr<unicode::UniString> id;
             
         };
     
@@ -71,14 +71,14 @@ namespace utakata {
         };
 
         // åãã¼ã¿å¥ãã®LiteralDataãè¿ããã«ãã¼é¢æ°ã
-        smart_ptr<LiteralData> makeString(const utf8_string::UTF8String& str);
-        smart_ptr<LiteralData> makeNumber(const utf8_string::UTF8String& real,
-                                          const utf8_string::UTF8String& imagin,
+        smart_ptr<LiteralData> makeString(const unicode::UniString& str);
+        smart_ptr<LiteralData> makeNumber(const unicode::UniString& real,
+                                          const unicode::UniString& imagin,
                                           bool exact, bool radix);
-        smart_ptr<LiteralData> makeBoolean(const utf8_string::UTF8String& str,
+        smart_ptr<LiteralData> makeBoolean(const unicode::UniString& str,
                                            bool boolean);
-        smart_ptr<LiteralData> makeCharactor(const utf8_string::UTF8Char& ch);
-        smart_ptr<LiteralData> makeSymbol(const utf8_string::UTF8String& str);
+        smart_ptr<LiteralData> makeCharactor(const unicode::UniChar& ch);
+        smart_ptr<LiteralData> makeSymbol(const unicode::UniString& str);
 
     };
 
diff --git a/literal_impl.cpp b/literal_impl.cpp
index 907025f..61c2546 100755
--- a/literal_impl.cpp
+++ b/literal_impl.cpp
@@ -1,18 +1,18 @@
 #include "literal_impl.h"
 #include "literal_data.h"
-#include "utf8_string.h"
+#include "unicode.h"
 #include "datum_id.h"
 
 using namespace utakata;
 
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 using namespace utakata::literal;
 
 literal::Boolean::Boolean(smart_ptr<LiteralData> data) : data_(data)
 {
 }
 
-smart_ptr<utf8_string::UTF8String> literal::Boolean::toValue_()
+smart_ptr<unicode::UniString> literal::Boolean::toValue_()
 {
     return data_->boolean->str;
 }
@@ -35,10 +35,10 @@ String::String(smart_ptr<LiteralData> data) : data_(data)
 {
 }
 
-smart_ptr<utf8_string::UTF8String> literal::String::toValue_()
+smart_ptr<unicode::UniString> literal::String::toValue_()
 {
     // æå­åã¨ãã¦è¿ãã
-    smart_ptr<utf8_string::UTF8String> s(new utf8_string::UTF8String);
+    smart_ptr<unicode::UniString> s(new unicode::UniString);
     *s += "\"";
     *s += *data_->string->str;
     *s += "\"";
@@ -63,9 +63,9 @@ Number::Number(smart_ptr<LiteralData> data) : data_(data)
 {
 }
 
-smart_ptr<utf8_string::UTF8String> literal::Number::toValue_()
+smart_ptr<unicode::UniString> literal::Number::toValue_()
 {
-    smart_ptr<utf8_string::UTF8String> tmp(new UTF8String);
+    smart_ptr<unicode::UniString> tmp(new UniString);
     *tmp = *data_->number->real + *data_->number->imagin;
     return tmp;
 }
@@ -88,7 +88,7 @@ Symbol::Symbol(smart_ptr<LiteralData> data) : data_(data)
 {
 }
 
-smart_ptr<utf8_string::UTF8String> literal::Symbol::toValue_()
+smart_ptr<unicode::UniString> literal::Symbol::toValue_()
 {
     return data_->symbol->id;
 }
@@ -111,7 +111,7 @@ Charactor::Charactor(smart_ptr<LiteralData> data) : data_(data)
 {
 }
 
-smart_ptr<utf8_string::UTF8String> literal::Charactor::toValue_()
+smart_ptr<unicode::UniString> literal::Charactor::toValue_()
 {
     return data_->charactor->spec;
 }
@@ -133,18 +133,18 @@ const smart_ptr<LiteralData>& Charactor::getData_() const
 struct Abbreviation::pImpl
 {
     smart_ptr<LiteralData> data;
-    smart_ptr<UTF8String> str;
+    smart_ptr<UniString> str;
 };
 
-Abbreviation::Abbreviation(const smart_ptr<utf8_string::UTF8String>& str,
-                           const smart_ptr<utf8_string::UTF8String>& symbol) :
+Abbreviation::Abbreviation(const smart_ptr<unicode::UniString>& str,
+                           const smart_ptr<unicode::UniString>& symbol) :
     pimpl_(new pImpl)
 {
     pimpl_->str = str;
     pimpl_->data = makeSymbol(*symbol);
 }
 
-smart_ptr<UTF8String> Abbreviation::toValue_()
+smart_ptr<UniString> Abbreviation::toValue_()
 {
     return pimpl_->str;
 }
diff --git a/literal_impl.h b/literal_impl.h
index 60e0426..2001ace 100755
--- a/literal_impl.h
+++ b/literal_impl.h
@@ -6,8 +6,8 @@
 
 namespace utakata {
 
-    namespace utf8_string {
-        class UTF8String;
+    namespace unicode {
+        class UniString;
     };
 
     namespace syntax {
@@ -25,7 +25,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
 
@@ -41,7 +41,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
             smart_ptr<LiteralData> data_;
@@ -55,7 +55,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
             smart_ptr<LiteralData> data_;
@@ -69,7 +69,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
             smart_ptr<LiteralData> data_;
@@ -83,7 +83,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
 
@@ -98,13 +98,13 @@ namespace utakata {
             // åAbbreviationã¯ãå±éæã®æå­å=ã·ã³ãã«ã¨ã
             // ãªãã©ã«ã¨ãã¦ä¿æãããã¼ã¿ã®äºç¨®é¡ãåãã¦æã¤å¿è¦ãããã
         public:
-            Abbreviation(const smart_ptr<utf8_string::UTF8String>& str,
-                         const smart_ptr<utf8_string::UTF8String>& symbol);
+            Abbreviation(const smart_ptr<unicode::UniString>& str,
+                         const smart_ptr<unicode::UniString>& symbol);
             virtual ~Abbreviation() {}
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> toValue_();
+            smart_ptr<unicode::UniString> toValue_();
             const smart_ptr<LiteralData>& getData_() const;
             syntax::DatumID getID_() const;
 
diff --git a/number_lexer.h b/number_lexer.h
old mode 100644
new mode 100755
index d78cf93..d6488e0
--- a/number_lexer.h
+++ b/number_lexer.h
@@ -4,7 +4,7 @@
 #include <iostream>
 
 #include <sstream>
-#include "utf8_string.h"
+#include "unicode.h"
 #include "smart_ptr.h"
 #include "utf8.h"
 #include "lexeme.h"
@@ -40,8 +40,8 @@ namespace utakata {
                 Number() : 
                         INIT(1), REAL(2), UREAL(3), NAN_IMAGINARY(4), INF_IMAGINARY(5),
                         IMAGINARY_ONLY(8), FLAG(9), END(10), IMAGINARY(11),
-                        exact_(false), realnum_(new utf8_string::UTF8String()),
-                        imaginary_(new utf8_string::UTF8String())
+                        exact_(false), realnum_(new unicode::UniString()),
+                        imaginary_(new unicode::UniString())
                 {
                 }
                 
@@ -49,14 +49,14 @@ namespace utakata {
 
                 smart_ptr<lexeme::ILexeme> lex(smart_ptr<utf8::UTF8InputStream> stream,
                                                smart_ptr<ISubLexer>& next,
-                                               const utf8_string::UTF8String& str,
+                                               const unicode::UniString& str,
                                                bool exactness)
                     {
                         // å¨ä½çãªæµãã¯åä¸ã§ãããåºæ°ã®éãã«ãã
                         // æ°å¤ã®éãç¨åº¦ããåé¡ã¯çºçããªãã
                         exact_ = exactness;
                         lexer_delimiter::Normal nor;
-                        utf8_string::UTF8String number = str;
+                        unicode::UniString number = str;
                         while (true) {
                             // ããªãã¿ã¾ã§èª­ãã§ãã¾ãã
                             if (stream->isEOF())
@@ -64,7 +64,7 @@ namespace utakata {
                                 throw utakata::sublexer::LexException(pos_, "illegal number format");
                             }
                         
-                            utf8_string::UTF8Char ch(stream->read());
+                            unicode::UniChar ch(stream->read());
                             if (nor(ch))
                             {
                                 stream->unget(ch.getBytes());
@@ -89,11 +89,11 @@ namespace utakata {
                     now = next;
                 }
 
-                smart_ptr<lexeme::ILexeme> lexNumber_(const utf8_string::UTF8String& number)
+                smart_ptr<lexeme::ILexeme> lexNumber_(const unicode::UniString& number)
                     {
                         // ããªãã¿ã¾ã§ãåå¾ãããã¼ã¿ããå®éã®æ°å¤ãªãã¸ã§ã¯ãã¨ãã¦è§£éãããã
                         // è§£éã§ããªãã£ãå ´åãå­å¥æ§æã¨ã©ã¼ã¨ãã¦æ±ãã
-                        utf8_string::UTF8String::const_utf8iterator begin = number.begin(),
+                        unicode::UniString::const_utf8iterator begin = number.begin(),
                             end = number.end();
 
                         int status = INIT, prevstatus = INIT;
@@ -146,7 +146,7 @@ namespace utakata {
                             else if (status == FLAG)
                             {
                                 // èæ°é¨åã®åé ­ç¬¦å·ãç¤ºãã
-                                utf8_string::UTF8String s;
+                                unicode::UniString s;
                                 s.insert(s.begin(), begin, end);
 
                                 if (s.size() == 1)
@@ -167,7 +167,7 @@ namespace utakata {
                                 else
                                 {
                                     // +i,-iä»¥å¤ã®å ´åã¯ãéå®é åãrealã§ããå¿è¦ãããã
-                                    utf8_string::UTF8String s2;
+                                    unicode::UniString s2;
                                     s2.insert(s2.begin(), s.begin() + 1, s.end() - 1);
                                     if (s2.toStr() == "nan.0" || s2.toStr() == "inf.0")
                                     {
@@ -177,7 +177,7 @@ namespace utakata {
                                     else
                                     {
                                         // urealã§ããå¿è¦ãããã
-                                        utakata::utf8_string::UTF8String::const_utf8iterator begin = s2.begin(),
+                                        utakata::unicode::UniString::const_utf8iterator begin = s2.begin(),
                                             end = s2.end();
                                         UReal<NUM>(pos_).lex(begin, end);
                                         // ä¾å¤ãçºçããªããã°ureal_ã§ããã
@@ -204,11 +204,11 @@ namespace utakata {
                     }
 
                 // åæç¶æã§ç¢ºå®å¯è½ãªãªãã©ã«ããã§ãã¯ããã
-                int complex_(utf8_string::UTF8String::const_utf8iterator& begin,
-                             const utf8_string::UTF8String::const_utf8iterator& end)
+                int complex_(unicode::UniString::const_utf8iterator& begin,
+                             const unicode::UniString::const_utf8iterator& end)
                     {
                         // ä¸æå­åä½ã§èª¿ã¹ã¦ãããchecker_ã«è©²å½ãããã¼ã¿ã®å ´åã«ã¯ã
-                        utf8_string::UTF8String s;
+                        unicode::UniString s;
                         s.insert(s.begin(), begin, end);
                         if (s.toStr() == "-nan.0i" || s.toStr() == "+nan.0i")
                         {
@@ -235,8 +235,8 @@ namespace utakata {
                     }
 
 
-                int real_(utf8_string::UTF8String::const_utf8iterator& begin,
-                          const utf8_string::UTF8String::const_utf8iterator& end)
+                int real_(unicode::UniString::const_utf8iterator& begin,
+                          const unicode::UniString::const_utf8iterator& end)
                     {
                         // å®æ°ã®è¡¨ç¾ã§ãªããã°ãªããªãã
                         // åé ­ä¸æå­ãç¬¦å·è¡¨ç¾ããç¬¦å·ç¡ãè¡¨ç¾ã§
@@ -253,8 +253,8 @@ namespace utakata {
                         }
                     }
 
-                int innerReal_(utf8_string::UTF8String::const_utf8iterator& begin,
-                               const utf8_string::UTF8String::const_utf8iterator& end,
+                int innerReal_(unicode::UniString::const_utf8iterator& begin,
+                               const unicode::UniString::const_utf8iterator& end,
                                bool flag)
                     {
                         // realã®ç¬¦å·æç¡ã«é¢ä¿ã®ç¡ããå±éé¨åã®åé¢ã
@@ -262,8 +262,8 @@ namespace utakata {
                         {
                             ++begin;
                         }
-                        utf8_string::UTF8String s;
-                        utf8_string::UTF8String::const_utf8iterator save = begin;
+                        unicode::UniString s;
+                        unicode::UniString::const_utf8iterator save = begin;
                         while (begin != end && (begin->toUTF16Code() != '+' ||
                                                 begin->toUTF16Code() != '-')) {
                             ++begin;
@@ -288,8 +288,8 @@ namespace utakata {
                     }
 
             
-                int flag_(utf8_string::UTF8String::const_utf8iterator& begin,
-                          const utf8_string::UTF8String::const_utf8iterator& end)
+                int flag_(unicode::UniString::const_utf8iterator& begin,
+                          const unicode::UniString::const_utf8iterator& end)
                     {
                         // èæ°ã®åé ­ã«å¿ãå¿è¦ãªç¬¦å·ãå­å¨ãããã©ãããè¿ãã
                         if (begin->toUTF16Code() == '+' || begin->toUTF16Code() == '-')
@@ -307,8 +307,8 @@ namespace utakata {
 
                 // ãã§ãã¯ãè¡ãããã®é¢æ°ãªãã¸ã§ã¯ãã
                 bool exact_;
-                smart_ptr<utf8_string::UTF8String> realnum_;
-                smart_ptr<utf8_string::UTF8String> imaginary_;
+                smart_ptr<unicode::UniString> realnum_;
+                smart_ptr<unicode::UniString> imaginary_;
                 size_t pos_;
             };
 
@@ -320,7 +320,7 @@ namespace utakata {
             class UInteger
             {
                 // æå®ãããåºæ°ã®å¤ã§ãããã©ãããèª¿ã¹ãã
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 UInteger() {}
                 virtual ~UInteger(){}
@@ -333,7 +333,7 @@ namespace utakata {
             template<>
             class UInteger<2>
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 bool operator()(iter it) {
                     if (it->toUTF16Code() == '0' || it->toUTF16Code() == '1')
@@ -347,7 +347,7 @@ namespace utakata {
             template<>
             class UInteger<8>
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 bool operator()(iter it) {
                     if (it->toUTF16Code() == '0' || it->toUTF16Code() == '1' ||
@@ -364,7 +364,7 @@ namespace utakata {
             template<>
             class UInteger<10>
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 bool operator()(iter it) {
                     if (it->toUTF16Code() == '0' || it->toUTF16Code() == '1' ||
@@ -382,7 +382,7 @@ namespace utakata {
             template<>
             class UInteger<16>
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 bool operator()(iter it) {
                     if (it->toUTF16Code() == '0' || it->toUTF16Code() == '1' ||
@@ -410,7 +410,7 @@ namespace utakata {
             template<int NUM>
             class UReal
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 UReal(size_t pos) : pos_(pos)
                     {
@@ -461,7 +461,7 @@ namespace utakata {
             template<>
             class UReal<10>
             {
-                typedef utakata::utf8_string::UTF8String::const_utf8iterator iter;
+                typedef utakata::unicode::UniString::const_utf8iterator iter;
             public:
                 UReal(size_t pos) : pos_(pos)
                     {
diff --git a/port.h b/port.h
new file mode 100755
index 0000000..5f7f520
--- /dev/null
+++ b/port.h
@@ -0,0 +1,59 @@
+#ifndef _STREAM_H_
+#define _STREAM_H_
+
+#include <vector>
+#include <string>
+#include <exception>
+
+namespace utakata {
+
+    namespace stream {
+
+        class IInputPort
+        {
+            // å¥åãæ½è±¡åããport
+            // ãã®portã§ã¯ãååã¨ãã¦åç´ã«1ãã¤ããèª­ã¿åºãããã§ããªãã
+            // intã¨ãã¦ããã®ã¯ããã¼ã¹ã¨ãã¦ããistreamãintãè¿ãããã«
+            // è¨­è¨ããã¦ããããã§ããã256ãè¿ãå¯è½æ§ãããããã§ããã
+        public:
+
+            IInputPort(){}
+            virtual ~IInputPort(){}
+
+            // ã¹ããªã¼ã ãã1åä½èª­ã¿ã ãã¦è¿ãã
+            // ã¹ããªã¼ã æ¯ã«ã1åä½ãç°ãªããããvector<unsigned char>ã«ã¦ãã¤ãåä½ã§
+            // æ½åºããã
+            virtual int read() = 0;
+            virtual std::vector<int> read(size_t num) = 0;
+
+            virtual int peek() = 0;
+
+            // ç¾å¨streamã®ã©ãã¾ã§ãèª­ãã§ããã®ããè¿ãã
+            virtual size_t pos() = 0;
+
+            // æ¸¡ãããvectorãstreamã«æ»ãã
+            virtual void unget(int ch) = 0;
+
+            // ç¾å¨ã®portãçµäºæç¹ãã©ãããè¿ãã
+            virtual bool isEOF() = 0;
+        };
+
+        // streamã«ãªãããç°å¸¸ãçºçããå ´åã«éåºãããä¾å¤
+        class PortException : public std::exception
+        {
+        public:
+            PortException(const std::string& str) : str_(str) {}
+            virtual ~PortException() throw() {}
+
+            const char* what() throw() {
+                return str_.c_str();
+            }
+        private:
+
+            std::string str_;
+        };
+
+    };
+}
+
+#endif /* _STREAM_H_ */
diff --git a/primitive.cpp b/primitive.cpp
old mode 100644
new mode 100755
index 6412cfc..5b2f345
--- a/primitive.cpp
+++ b/primitive.cpp
@@ -1,29 +1,29 @@
 #include "primitive.h"
 #include "object.h"
-#include "utf8_string.h"
+#include "unicode.h"
 
 using namespace utatata;
 using namespace utakata::interpreter;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 
-utatata::primitive::String(const smart_ptr<UTF8String>& data) : data_(data)
+utatata::primitive::String(const smart_ptr<UniString>& data) : data_(data)
 {
 }
 
-UTF8String& primitive::String::getData()
+UniString& primitive::String::getData()
 {
     return *data_;
 }
 
 
-primitive::Charactor::Charactor(const smart_ptr<UTF8String>& data) : data_()
+primitive::Charactor::Charactor(const smart_ptr<UniString>& data) : data_()
 {
-    // UTF8Stringãè§£æãã¦ãæå­ã³ã¼ãã«å¤æããã
+    // UniStringãè§£æãã¦ãæå­ã³ã¼ãã«å¤æããã
     // ããã§æ¸¡ãããdataã¯ããã§ã«åé ­ã®#\ãåãé¤ããã¦ããç¶æã¨ãªã£ã¦ããã
     // å®éã«ã¯ããã§è§£éããã®ã§ã¯ãªãã
 }
 
-UTF8Char& primitive::Charactor::getData()
+UniChar& primitive::Charactor::getData()
 {
     return data_;
 }
diff --git a/primitive.h b/primitive.h
index 51350e9..b43c7f4 100755
--- a/primitive.h
+++ b/primitive.h
@@ -8,9 +8,9 @@
 
 namespace utakata {
 
-    namespace utf8_string {
-        class UTF8Char;
-        class UTF8String;
+    namespace unicode {
+        class UniChar;
+        class UniString;
     };
 
     namespace interpreter {
@@ -36,29 +36,29 @@ namespace utakata {
         {
             // schemeä¸­ã§ã®æå­åãæãã
         public:
-            String(const smart_ptr<utf8_string::UTF8String>& data);
+            String(const smart_ptr<unicode::UniString>& data);
             virtual ~String() {}
 
-            utf8_string::UTF8String& getData();
+            unicode::UniString& getData();
 
         priavte:
 
-            smart_ptr<utf8_string::UTF8String> data_;
+            smart_ptr<unicode::UniString> data_;
         };
 
         class Charactor
         {
             // schemeä¸­ã§ã®unicodeæå­ãè¡¨ãã
-            // ä¸æå­ã®ã¿ãè¡¨ç¾ãããããUTF8Charãå©ç¨ãããã
+            // ä¸æå­ã®ã¿ãè¡¨ç¾ãããããUniCharãå©ç¨ãããã
         public:
-            Charactor(const smart_ptr<utf8_string::UTF8String>& data);
+            Charactor(const smart_ptr<unicode::UniString>& data);
             virtual ~Charactor() {}
 
-            utf8_string::UTF8Char& getData();
+            unicode::UniChar& getData();
 
         private:
 
-            smart_ptr<utf8_string::UTF8Char> data_;
+            smart_ptr<unicode::UniChar> data_;
         };
 
         class Boolean
@@ -80,14 +80,14 @@ namespace utakata {
             // ã·ã³ãã«ãè¡¨ç¾ãããã·ã³ãã«ã¯å®éã«ã¯åç´ãªæå­åã¨ãã¦
             // ä¿æãããããå¦çã®éã«ç¹å¥ã«å¦çãããç¹ãç°ãªã£ã¦ããã
         public:
-            Symbol(const smart_ptr<utf8_string::UTF8String>& sym);
+            Symbol(const smart_ptr<unicode::UniString>& sym);
             virtual ~Symbol() {}
 
-            utf8_string::UTF8String& getData();
+            unicode::UniString& getData();
 
         private:
 
-            smart_ptr<utf8_string::UTF8String> symbol_;
+            smart_ptr<unicode::UniString> symbol_;
         };
 
         class List
diff --git a/sublexer_impl.cpp b/sublexer_impl.cpp
index 6abb1ef..41fa552 100755
--- a/sublexer_impl.cpp
+++ b/sublexer_impl.cpp
@@ -2,7 +2,7 @@
 #include <assert.h>
 #include <sstream>
 
-#include "utf8_string.h"
+#include "unicode.h"
 #include "sublexer_impl.h"
 #include "lexeme_impl.h"
 #include "delimiter.h"
@@ -10,18 +10,18 @@
 #include "lexeme_id.h"
 
 using namespace utakata;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 
 smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex(smart_ptr<utf8::UTF8InputStream> stream,
                                                      smart_ptr<sublexer::ISubLexer>& next)
 {
     // chã«ã¯lexerããæ¸¡ããããä»åèª­ã¿ã ããæå­ãæ¸¡ããã¦ããã
 
-    UTF8String str;
+    UniString str;
 
     // æåã«å®è¡ãããã®ã§ãæåã®ç©ºç½ãèª­ã¿é£ã°ãã
     
-    UTF8Char ch(stream->read());
+    UniChar ch(stream->read());
     {
         lexer_delimiter::Whitespace sps;
         while (sps(ch)) {
@@ -56,18 +56,18 @@ smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex(smart_ptr<utf8::UTF8InputSt
     else if (ch.toUTF16Code() == '.')
     {
         // æ¬¡ã®æå­ãããªãã¿ã§çµäºãã¦ããªããã°ãªããªãã
-        if (lexer_delimiter::Normal()(UTF8Char(stream->peek())))
+        if (lexer_delimiter::Normal()(UniChar(stream->peek())))
         {
             ret = lexeme::makeDot();
         }
     }
-    else if (utf8_string::is_numeric(ch))
+    else if (unicode::is_numeric(ch))
     {
         // åé ­ãæ°å¤ã ã£ãå ´åãããã¯10é²æ°ã ã¨å¤æ­ãã¦æ¬¡ã«é²ãã
-        next.add(new sublexer::NumberLexer(UTF8String(ch.getBytes())));
+        next.add(new sublexer::NumberLexer(UniString(ch.getBytes())));
         ret = smart_ptr<lexeme::ILexeme>();
     }
-    else if (utf8_string::is_alpha(ch) ||
+    else if (unicode::is_alpha(ch) ||
              ch.toUTF16Code() == '!' || ch.toUTF16Code() == '$' ||
              ch.toUTF16Code() == '%' || ch.toUTF16Code() == '&' ||
              ch.toUTF16Code() == '*' || ch.toUTF16Code() == '/' ||
@@ -79,7 +79,7 @@ smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex(smart_ptr<utf8::UTF8InputSt
     {
         // ãããã¨å¤ãããä¸è¨ã®ã©ããã§ããå ´åã«ã¯ãidentityã¨ãã¦è§£æã
         // éå§ãããã
-        next.add(new sublexer::IdentifierLexer(UTF8String(ch.getBytes())));
+        next.add(new sublexer::IdentifierLexer(UniString(ch.getBytes())));
         ret = smart_ptr<lexeme::ILexeme>();
     }
     else if (ch.toUTF16Code() == ';')
@@ -117,13 +117,13 @@ smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex(smart_ptr<utf8::UTF8InputSt
     return smart_ptr<lexeme::ILexeme>();
 }
 
-smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex_(const utakata::utf8_string::UTF8String& str,
+smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex_(const utakata::unicode::UniString& str,
                                                       smart_ptr<utakata::utf8::UTF8InputStream> stream,
                                                       smart_ptr<ISubLexer>& next)
 {
     if (str[0].toUTF16Code() == ',')
     {
-        UTF8Char ch = stream->peek();
+        UniChar ch = stream->peek();
         // æ¬¡ã®ä¸æå­ã§æ±ºå®ã§ããã
         if (ch.toUTF16Code() == '@')
         {
@@ -139,7 +139,7 @@ smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex_(const utakata::utf8_string
     else if (str[0].toUTF16Code() == '#')
     {
         // ã³ã¡ã³ããªã©ã«ç¹ããæããããããé¢åã
-        UTF8Char ch = stream->peek();
+        UniChar ch = stream->peek();
         if (ch.toUTF16Code() == '\'')
         {
             stream->read();
@@ -212,7 +212,7 @@ smart_ptr<lexeme::ILexeme> sublexer::FirstLexer::lex_(const utakata::utf8_string
     {
         // åé ­ã-ã®å ´åãæ¬¡ã®æå­ãè¦ã¦ããæ±ºããã
         // åºæ¬çã«ã¯æ°å¤ã ããæ¬¡ã®æå­ã«ãã£ã¦ã¯identifierã«ãªãããã
-        UTF8Char ch(stream->peek());
+        UniChar ch(stream->peek());
         lexer_delimiter::Normal nor;
         if (ch.toUTF16Code() == '>' || nor(ch))
         {
@@ -238,10 +238,10 @@ smart_ptr<lexeme::ILexeme> sublexer::StringLexer::lex(smart_ptr<utf8::UTF8InputS
     lexer_delimiter::Normal nor;
     lexer_delimiter::String st;
     lexer_delimiter::Whitespace w;
-    utf8_string::UTF8String str;
+    unicode::UniString str;
 
     while (!stream->isEOF()) {
-        UTF8Char tmp(stream->peek());
+        UniChar tmp(stream->peek());
         if (st(tmp)) {
             // readãã¦ããã
             stream->read();
@@ -272,12 +272,12 @@ smart_ptr<lexeme::ILexeme> sublexer::NestedCommentLexer::lex(smart_ptr<utf8::UTF
     // ãã¹ãããã³ã¡ã³ããè§£éãããåºæ¬çã«ã¯æ¹è¡ãé¢ä¿ç¡ãå¦çããã
     int count = 1;
     while (!stream->isEOF() && count > 0) {
-        utf8_string::UTF8Char tmp(stream->read());
+        unicode::UniChar tmp(stream->read());
 
         if (tmp.toUTF16Code() == '#')
         {
             // æ¬¡ã®æå­ãèª¿ã¹ãã
-            utf8_string::UTF8Char t2(stream->read());
+            unicode::UniChar t2(stream->read());
             if (t2.toUTF16Code() == '|')
             {
                 ++count;
@@ -286,7 +286,7 @@ smart_ptr<lexeme::ILexeme> sublexer::NestedCommentLexer::lex(smart_ptr<utf8::UTF
         else if (tmp.toUTF16Code() == '|')
         {
             // æ¬¡ã®æå­ãèª¿ã¹ãã
-            utf8_string::UTF8Char t2(stream->read());
+            unicode::UniChar t2(stream->read());
             if (t2.toUTF16Code() == '#')
             {
                 --count;
@@ -299,15 +299,15 @@ smart_ptr<lexeme::ILexeme> sublexer::NestedCommentLexer::lex(smart_ptr<utf8::UTF
 
 //================================================================================
 
-sublexer::NumberLexer::NumberLexer(const utf8_string::UTF8String& str) :
+sublexer::NumberLexer::NumberLexer(const unicode::UniString& str) :
     BINARY(2), OCTET(8), DECIMAL(10), HEX(16),
-    str_(new utf8_string::UTF8String(str)), exact_(false), prefix_(0)
+    str_(new unicode::UniString(str)), exact_(false), prefix_(0)
 {
 }
 
 smart_ptr<lexeme::ILexeme> sublexer::NumberLexer::innerLex_(smart_ptr<utf8::UTF8InputStream> stream,
                                                             smart_ptr<sublexer::ISubLexer>& next,
-                                                            const utf8_string::UTF8String& str)
+                                                            const unicode::UniString& str)
 {
     // prefixããã§ãã¯ãã¦ãè¿ãã¹ããã®ãæ±ºå®ããã
     if (prefix_ == BINARY)
@@ -332,7 +332,7 @@ smart_ptr<lexeme::ILexeme> sublexer::NumberLexer::innerLex_(smart_ptr<utf8::UTF8
     }
 }
 
-void sublexer::NumberLexer::checkExactness_(const utf8_string::UTF8String& str)
+void sublexer::NumberLexer::checkExactness_(const unicode::UniString& str)
 {
     // æ­£ç¢ºæ§ããã§ãã¯ããã2æå­ç®ã ããèª¿ã¹ãã°ããã§ããã
     if (str[1].toUTF16Code() == 'e' || str[1].toUTF16Code() == 'E')
@@ -345,7 +345,7 @@ void sublexer::NumberLexer::checkExactness_(const utf8_string::UTF8String& str)
     }
 }
 
-unsigned char sublexer::NumberLexer::getPrefix_(const utf8_string::UTF8String& str)
+unsigned char sublexer::NumberLexer::getPrefix_(const unicode::UniString& str)
 {
     // 2æå­ç®ã®å¤ãè¦ã¦å¤æ­ãè¿ãã
     if (str[1].toUTF16Code() == 'b' ||
@@ -386,13 +386,13 @@ smart_ptr<lexeme::ILexeme> sublexer::NumberLexer::lex(smart_ptr<utf8::UTF8InputS
     {
         prefix_ = getPrefix_(*str_);
         // æ¬¡ã«exactnessãç¶ãã¦ãããã©ãããèª¿ã¹ãã
-        utf8_string::UTF8String s = utf8_string::substring(*str_, 2);
+        unicode::UniString s = unicode::substring(*str_, 2);
         if (e(s))
         {
             // Exactnessã§ããå ´åãå®éã«ããã§ãããã©ããããã§ãã¯ããã
             checkExactness_(s);
         }
-        s = utf8_string::substring(s, 2);
+        s = unicode::substring(s, 2);
         return innerLex_(stream, next, s);
     }
     else if (e(*str_))
@@ -400,7 +400,7 @@ smart_ptr<lexeme::ILexeme> sublexer::NumberLexer::lex(smart_ptr<utf8::UTF8InputS
         // Exactnessã§ãããããæ¬¡ã«prefixã®å¿è¦ãããã
         checkExactness_(*str_);
 
-        utf8_string::UTF8String s = utf8_string::substring(*str_, 2);
+        unicode::UniString s = unicode::substring(*str_, 2);
         if (p(s))
         {
             prefix_ = getPrefix_(s);
@@ -421,8 +421,8 @@ smart_ptr<lexeme::ILexeme> sublexer::NumberLexer::lex(smart_ptr<utf8::UTF8InputS
 
 //================================================================================
 
-sublexer::IdentifierLexer::IdentifierLexer(const utf8_string::UTF8String& str) :
-    str_(new utf8_string::UTF8String(str))
+sublexer::IdentifierLexer::IdentifierLexer(const unicode::UniString& str) :
+    str_(new unicode::UniString(str))
 {}
 
 smart_ptr<lexeme::ILexeme> sublexer::IdentifierLexer::lex(smart_ptr<utf8::UTF8InputStream> stream,
@@ -433,7 +433,7 @@ smart_ptr<lexeme::ILexeme> sublexer::IdentifierLexer::lex(smart_ptr<utf8::UTF8In
     // ä¸æå­ç®ã¯ãã§ã«å¤å®ããã¦ãããããäºæå­ç®ä»¥éã§å¤å®ããã
     // äºæå­åä»¥éã§ãªããã°å¤å®ã§ããªããã®ããããããä¸åº¦ã¾ã¨ãã¦ã¿ãã
     lexer_delimiter::Normal nor;
-    utf8_string::UTF8String& str = *str_;
+    unicode::UniString& str = *str_;
     if (str[0].toUTF16Code() == '+')
     {
         return lexeme::makeIdentifier(str);
@@ -441,7 +441,7 @@ smart_ptr<lexeme::ILexeme> sublexer::IdentifierLexer::lex(smart_ptr<utf8::UTF8In
     else if (str[0].toUTF16Code() == '-')
     {
         // æ¬¡ã®æå­ãããªãã¿ã®å ´åã«ã¯ããã®ã¾ã¾è¿ãã
-        UTF8Char next(stream->peek());
+        UniChar next(stream->peek());
         if (nor(next))
         {
             return lexeme::makeIdentifier(str);
@@ -453,7 +453,7 @@ smart_ptr<lexeme::ILexeme> sublexer::IdentifierLexer::lex(smart_ptr<utf8::UTF8In
     }
 
     while (!stream->isEOF()) {
-        UTF8Char tmp(stream->peek());
+        UniChar tmp(stream->peek());
         if (nor(tmp)) {
             break;
         }
@@ -470,15 +470,15 @@ smart_ptr<lexeme::ILexeme> sublexer::CharactorLexer::lex(smart_ptr<utf8::UTF8Inp
 {
     // #\ã«ç¶ãæå­åããããã¯#\xã«ç¶ã16é²æ°ã®ãã§ãã¯ãè¡ãªãã
     // ããã«æ¥ãæç¹ã§ã#\ã¾ã§ã¯èª­ã¾ãã¦ããã
-    UTF8Char ch(stream->read());
+    UniChar ch(stream->read());
     bool flag = ch.toUTF16Code() == 'x' ? true : false;
 
     // Hexãè§£éãããè§£éé¨åãæ¸ãã¨é¢åã«ãªããããåç´ãªå¥é¢æ°ã«ãã¦ããã
-    UTF8String str(ch.getBytes());
+    UniString str(ch.getBytes());
     lexer_delimiter::Normal nor;
     lexer_delimiter::HexValue hex;
     while (!stream->isEOF()) {
-        UTF8Char tmp(stream->peek());
+        UniChar tmp(stream->peek());
         if (nor(tmp))
         {
             break;
@@ -496,18 +496,18 @@ smart_ptr<lexeme::ILexeme> sublexer::CharactorLexer::lex(smart_ptr<utf8::UTF8Inp
 
     // æããæç¹ã§ãæ§ææå­ã¯åé¡ãªããã¨ã¨ãªã£ã¦ãããããããã¯ãå¯¾è±¡ã¨ããä¸æå­ã
     // çæããå¦çãéå§ããã
-    UTF8Char c(parseCharSpec(str));
+    UniChar c(parseCharSpec(str));
 
     return lexeme::makeCharactor(c);
 }
 
-std::vector<unsigned char> sublexer::CharactorLexer::parseCharSpec(const utf8_string::UTF8String& s)
+std::vector<unsigned char> sublexer::CharactorLexer::parseCharSpec(const unicode::UniString& s)
 {
     // å¯¾è±¡ã¨ãªãæå­åã
 
 //================================================================================
 
-sublexer::BooleanLexer::BooleanLexer(const utf8_string::UTF8Char& ch) : ch_(new utf8_string::UTF8Char(ch))
+sublexer::BooleanLexer::BooleanLexer(const unicode::UniChar& ch) : ch_(new unicode::UniChar(ch))
 {
 }
 
@@ -519,7 +519,7 @@ smart_ptr<lexeme::ILexeme> sublexer::BooleanLexer::lex(smart_ptr<utf8::UTF8Input
 
     if (!stream->isEOF())
     {
-        UTF8Char ch(stream->peek());
+        UniChar ch(stream->peek());
 
         lexer_delimiter::Normal nor;
         if (!nor(ch))
@@ -537,7 +537,7 @@ smart_ptr<lexeme::ILexeme> sublexer::BooleanLexer::lex(smart_ptr<utf8::UTF8Input
 
 //================================================================================
 
-sublexer::ByteVectorLexer::ByteVectorLexer(const utf8_string::UTF8Char& ch) : ch_(new utf8_string::UTF8Char(ch))
+sublexer::ByteVectorLexer::ByteVectorLexer(const unicode::UniChar& ch) : ch_(new unicode::UniChar(ch))
 {
 }
 
@@ -547,7 +547,7 @@ smart_ptr<lexeme::ILexeme> sublexer::ByteVectorLexer::lex(smart_ptr<utf8::UTF8In
     // ãã®æç¹ã§#vã¾ã§ã¯èª­ã¾ãã¦ãããããä»¥é2æå­ãvu(ã§ãããã©ããã
     // èª¿ã¹ãã
 
-    UTF8String str(stream->read(3));
+    UniString str(stream->read(3));
     if (str.toStr() != "u8(")
     {
         std::stringstream ss;
@@ -574,7 +574,7 @@ smart_ptr<lexeme::ILexeme> sublexer::OneLineCommentLexer::lex(
     lexer_delimiter::LineEnding end;
     while (!stream->isEOF()) {
         // æ¹è¡ãåºåãããã¾ã§å¨ã¦èª­ã¿é£ã°ãã
-        UTF8Char ch = stream->read();
+        UniChar ch = stream->read();
         if (end(ch, stream))
         {
             // ãã®æç¹ã§ãèª­ã¿é£ã°ãã¾ã§è¡ããã¦ããã
diff --git a/sublexer_impl.h b/sublexer_impl.h
index bf949c0..2608b45 100755
--- a/sublexer_impl.h
+++ b/sublexer_impl.h
@@ -7,7 +7,7 @@
 #include "smart_ptr.h"
 #include "utf8.h"
 #include "lexeme.h"
-#include "utf8_string.h"
+#include "unicode.h"
 
 
 namespace utakata {
@@ -41,7 +41,7 @@ namespace utakata {
         private:
 
             // lexé¢æ°ä¸­ã§å©ç¨ããããéå¤ã«ãªã£ãå­å¥è§£æé¢æ°ã®åå²
-            smart_ptr<lexeme::ILexeme> lex_(const utakata::utf8_string::UTF8String& str,
+            smart_ptr<lexeme::ILexeme> lex_(const utakata::unicode::UniString& str,
                                             smart_ptr<utakata::utf8::UTF8InputStream> stream,
                                             smart_ptr<ISubLexer>& next);
 
@@ -102,7 +102,7 @@ namespace utakata {
         private:
 
             // æ¸¡ãããæå­åã®specãå¤å®ããã
-            std::vector<unsigned char> parseCharSpec(const utf8_string::UTF8String& s);
+            std::vector<unsigned char> parseCharSpec(const unicode::UniString& s);
 
         };
 
@@ -116,7 +116,7 @@ namespace utakata {
             const unsigned char HEX;
         public:
 
-            NumberLexer(const utakata::utf8_string::UTF8String& str);
+            NumberLexer(const utakata::unicode::UniString& str);
             virtual ~NumberLexer(){}
 
             smart_ptr<lexeme::ILexeme> lex(smart_ptr<utakata::utf8::UTF8InputStream> stream,
@@ -125,17 +125,17 @@ namespace utakata {
 
             smart_ptr<lexeme::ILexeme> innerLex_(smart_ptr<utakata::utf8::UTF8InputStream> stream,
                                                  smart_ptr<ISubLexer>& next,
-                                                 const utakata::utf8_string::UTF8String& str);
+                                                 const utakata::unicode::UniString& str);
 
 
             // æ¸¡ããæå­åããprefixãæ½åºãã¦è¿ãã
-            unsigned char getPrefix_(const utakata::utf8_string::UTF8String& str);
+            unsigned char getPrefix_(const utakata::unicode::UniString& str);
             // æ­£ç¢ºæ§ãæ½åºãã¦è¿ãã
-            void checkExactness_(const utakata::utf8_string::UTF8String& str); 
+            void checkExactness_(const utakata::unicode::UniString& str); 
 
         private:
             
-            smart_ptr<utakata::utf8_string::UTF8String> str_;
+            smart_ptr<utakata::unicode::UniString> str_;
 
             bool exact_;        // æ­£ç¢ºæ§ãè¨­å®ããã
             unsigned char prefix_;       // prefixãè¨­å®ããã
@@ -149,7 +149,7 @@ namespace utakata {
             // ãä¿å­ããå¿è¦ãããªãã
         public:
 
-            IdentifierLexer(const utakata::utf8_string::UTF8String& str);
+            IdentifierLexer(const utakata::unicode::UniString& str);
             virtual ~IdentifierLexer(){}
 
             smart_ptr<lexeme::ILexeme> lex(smart_ptr<utakata::utf8::UTF8InputStream> stream,
@@ -157,7 +157,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8String> str_;
+            smart_ptr<utakata::unicode::UniString> str_;
         };
 
         class BooleanLexer : public ISubLexer
@@ -166,7 +166,7 @@ namespace utakata {
             // ããããã®æ¬¡ã«ã¯ãå¿ãåºåãæå­ããªããã°ãªããªãã
         public:
 
-            BooleanLexer(const utakata::utf8_string::UTF8Char& ch);
+            BooleanLexer(const utakata::unicode::UniChar& ch);
             virtual ~BooleanLexer(){}
 
             smart_ptr<lexeme::ILexeme> lex(smart_ptr<utakata::utf8::UTF8InputStream> stream,
@@ -174,7 +174,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8Char> ch_;
+            smart_ptr<utakata::unicode::UniChar> ch_;
         };
 
         class ByteVectorLexer : public ISubLexer
@@ -183,7 +183,7 @@ namespace utakata {
             // vu8ã§ã¯ãªãå ´åã«ã¯ãã¨ã©ã¼ã¨ãªãã
         public:
 
-            ByteVectorLexer(const utakata::utf8_string::UTF8Char& ch);
+            ByteVectorLexer(const utakata::unicode::UniChar& ch);
             virtual ~ByteVectorLexer(){}
 
             smart_ptr<lexeme::ILexeme> lex(smart_ptr<utakata::utf8::UTF8InputStream> stream,
@@ -191,7 +191,7 @@ namespace utakata {
 
         private:
 
-            smart_ptr<utakata::utf8_string::UTF8Char> ch_;
+            smart_ptr<utakata::unicode::UniChar> ch_;
         };
 
     };
diff --git a/test/Makefile.am b/test/Makefile.am
index 79389a9..4eed2a6 100755
--- a/test/Makefile.am
+++ b/test/Makefile.am
@@ -3,24 +3,24 @@ AM_CPPFLAGS = -Wall -fno-default-inline
 INCLUDES = -I$(top_srcdir)
 SRC_DIR=/home/derui/develop/utakata
 
-bin_PROGRAMS = utf8_test textarrayformat_test utf8_string_test lexer_test sublexer_test \
+bin_PROGRAMS = utf8_transcoder_test textarrayformat_test unicode_test lexer_test sublexer_test \
 	syntax_tree_test parser_test environment_test type_test
 
-utf8_string_test_SOURCES = utf8_string_test.cpp ${SRC_DIR}/utf8_string.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8.cpp
-utf8_test_SOURCES = utf8_test.cpp ${SRC_DIR}/utf8.cpp ${SRC_DIR}/simpletest.cpp
+unicode_test_SOURCES = unicode_test.cpp ${SRC_DIR}/unicode.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8_transcoder.cpp
+utf8_transcoder_test_SOURCES = utf8_transcoder_test.cpp ${SRC_DIR}/utf8_transcoder.cpp ${SRC_DIR}/simpletest.cpp
 textarrayformat_test_SOURCES = textarrayformat_test.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/simpletest.cpp
-lexer_test_SOURCES = ${SRC_DIR}/lexeme_id.h lexer_test.cpp ${SRC_DIR}/utf8_string.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/lexeme_impl.cpp \
+lexer_test_SOURCES = ${SRC_DIR}/lexeme_id.h lexer_test.cpp ${SRC_DIR}/unicode.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8_transcoder.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/lexeme_impl.cpp \
 	 ${SRC_DIR}/delimiter.cpp  ${SRC_DIR}/sublexer_impl.cpp  ${SRC_DIR}/lexer.cpp ${SRC_DIR}/literal_data.cpp
-sublexer_test_SOURCES = sublexer_test.cpp ${SRC_DIR}/sublexer_impl.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8_string.cpp ${SRC_DIR}/utf8.cpp \
+sublexer_test_SOURCES = sublexer_test.cpp ${SRC_DIR}/sublexer_impl.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/unicode.cpp ${SRC_DIR}/utf8_transcoder.cpp \
 	${SRC_DIR}/lexeme_impl.cpp ${SRC_DIR}/delimiter.cpp ${SRC_DIR}/literal_data.cpp
-parser_test_SOURCES = parser_test.cpp ${SRC_DIR}/sublexer_impl.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8.cpp ${SRC_DIR}/utf8_string.cpp \
+parser_test_SOURCES = parser_test.cpp ${SRC_DIR}/sublexer_impl.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8_transcoder.cpp ${SRC_DIR}/unicode.cpp \
 	${SRC_DIR}/lexeme_impl.cpp ${SRC_DIR}/parser.cpp ${SRC_DIR}/delimiter.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/lexer.cpp ${SRC_DIR}/literal_data.cpp \
 	${SRC_DIR}/literal.cpp ${SRC_DIR}/literal_impl.cpp ${SRC_DIR}/tree.cpp ${SRC_DIR}/parser_handler.cpp
-syntax_tree_test_SOURCES = ${SRC_DIR}/lexeme_id.h ${SRC_DIR}/utf8_string.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/lexeme_impl.cpp \
+syntax_tree_test_SOURCES = ${SRC_DIR}/lexeme_id.h ${SRC_DIR}/unicode.cpp ${SRC_DIR}/simpletest.cpp ${SRC_DIR}/utf8_transcoder.cpp ${SRC_DIR}/textarrayformat.cpp ${SRC_DIR}/lexeme_impl.cpp \
 	${SRC_DIR}/delimiter.cpp  ${SRC_DIR}/sublexer_impl.cpp  ${SRC_DIR}/lexer.cpp ${SRC_DIR}/literal_data.cpp ${SRC_DIR}/tree.cpp \
 	${SRC_DIR}/literal.cpp ${SRC_DIR}/literal_impl.cpp syntax_tree_test.cpp
 environment_test_SOURCES = ${SRC_DIR}/environment.cpp environment_test.cpp ${SRC_DIR}/simpletest.cpp \
-	${SRC_DIR}/utf8_string.cpp ${SRC_DIR}/utf8.cpp ${SRC_DIR}/object.cpp ${SRC_DIR}/type.cpp ${SRC_DIR}/data_structure.cpp
+	${SRC_DIR}/unicode.cpp ${SRC_DIR}/utf8_transcoder.cpp ${SRC_DIR}/object.cpp ${SRC_DIR}/type.cpp ${SRC_DIR}/data_structure.cpp
 type_test_SOURCES = ${SRC_DIR}/type.cpp type_test.cpp ${SRC_DIR}/simpletest.cpp
 
 check_PROGRANS = $(bin_PROGRAMS)
diff --git a/test/cons_test.cpp b/test/cons_test.cpp
index 092231f..81d14bd 100755
--- a/test/cons_test.cpp
+++ b/test/cons_test.cpp
@@ -7,7 +7,7 @@
 
 #include "../textarrayformat.h"
 #include "../lexeme_id.h"
-#include "../utf8_string.h"
+#include "../unicode.h"
 #include "../cons.h"
 #include "../object.h"
 
@@ -20,8 +20,8 @@ public:
     Stub() {}
     virtual ~Stub() {}
     bool enableChange() const {return false;}
-    smart_ptr<utf8_string::UTF8String> toValue() {
-        smart_ptr<utf8_string::UTF8String> s(new utf8_string::UTF8String);
+    smart_ptr<unicode::UniString> toValue() {
+        smart_ptr<unicode::UniString> s(new unicode::UniString);
         *s += "hoge";
         return s;
     }
diff --git a/test/environment_test.cpp b/test/environment_test.cpp
index 8a37088..f6a8838 100755
--- a/test/environment_test.cpp
+++ b/test/environment_test.cpp
@@ -12,7 +12,7 @@
 #include "../type.h"
 
 #include "../utf8.h"
-#include "../utf8_string.h"
+#include "../unicode.h"
 
 
 using namespace std;
@@ -21,13 +21,13 @@ using namespace utakata;
 class String : public interpreter::DataEntity
 {
 public:
-    String(std::string str) : str_(new utf8_string::UTF8String(utf8_string::convert(str)))
+    String(std::string str) : str_(new unicode::UniString(unicode::convert(str)))
         {}
     virtual ~String() {}
 
     virtual unsigned char* getAddress() {return reinterpret_cast<unsigned char*>(&(*str_));}
 
-    smart_ptr<utf8_string::UTF8String> str_;
+    smart_ptr<unicode::UniString> str_;
 };
 
 bool environment_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
@@ -55,7 +55,7 @@ bool environment_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     env.append("name", o);
 
     // å®éã«ã¯ã®é¨åã¯DataCastingHelperã§å¦çãé è½ãããã
-    utf8_string::UTF8String* tmp = reinterpret_cast<utf8_string::UTF8String*>(
+    unicode::UniString* tmp = reinterpret_cast<unicode::UniString*>(
         env["name"]->getSpace()->getTypeDescripter().getEntity()->getAddress());
     
     asserter->check(tmp->toStr(), "hoge");
diff --git a/test/sublexer_test.cpp b/test/sublexer_test.cpp
old mode 100644
new mode 100755
index ddeb3dd..6e842ee
--- a/test/sublexer_test.cpp
+++ b/test/sublexer_test.cpp
@@ -13,8 +13,8 @@ int main(int argc, char *argv[])
 {
     simpletest::SimpleTestSuite suite("sublexer's test");
 //     suite.addTester(sfcr::screate(utf8_multichar_test, suite.getAsserter()));
-//     suite.addTester(sfcr::screate(utf8_string_test, suite.getAsserter()));
-//     suite.addTester(sfcr::screate(utf8_string_util_test, suite.getAsserter()));
+//     suite.addTester(sfcr::screate(unicode_test, suite.getAsserter()));
+//     suite.addTester(sfcr::screate(unicode_util_test, suite.getAsserter()));
     suite.run();
     return 0;
 }
diff --git a/test/utf8_string_test.cpp b/test/unicode_test.cpp
old mode 100644
new mode 100755
similarity index 68%
rename from test/utf8_string_test.cpp
rename to test/unicode_test.cpp
index 8bc4843..bf9d02f
--- a/test/utf8_string_test.cpp
+++ b/test/unicode_test.cpp
@@ -9,7 +9,7 @@
 
 #include "../utf8.h"
 
-#include "../utf8_string.h"
+#include "../unicode.h"
 #include "../textarrayformat.h"
 
 bool utf8_multichar_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
@@ -23,21 +23,21 @@ bool utf8_multichar_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     utakata::utf8::UTF8InputStream stream(ss);
 
     // åç¬ã®readãè©¦ãã
-    utakata::utf8_string::UTF8Char ch(stream.read());
+    utakata::unicode::UniChar ch(stream.read());
     asserter->check(ch.toUTF16Code(), utakata::utf8::generateUTF8Code("ã"));
     // peekãåé¡ãªãåãã¦ãããã¨ã®ãã¹ã
-    utakata::utf8_string::UTF8Char ch2(stream.peek());
+    utakata::unicode::UniChar ch2(stream.peek());
     asserter->check(ch2.toUTF16Code(), utakata::utf8::generateUTF8Code("ã"));
-    utakata::utf8_string::UTF8Char ch3(stream.read());
+    utakata::unicode::UniChar ch3(stream.read());
     asserter->check(ch3.toUTF16Code(), utakata::utf8::generateUTF8Code("ã"));
 
     // asciiã ã¨ãã¦ãåé¡ç¡ãèª­ã¿ã ããã¯ãã
-    utakata::utf8_string::UTF8Char ch4(stream.peek());
+    utakata::unicode::UniChar ch4(stream.peek());
     asserter->check(ch4.toUTF16Code(), 'u');
 
     // asciiæå­ã®ç¯å²ã§ãããã©ãããå¤å®ããé¢æ°ã®ãã¹ãã
-    asserter->check(utakata::utf8_string::is_ascii_char(ch4), true);
-    asserter->check(utakata::utf8_string::is_ascii_char(ch), false);
+    asserter->check(utakata::unicode::is_ascii_char(ch4), true);
+    asserter->check(utakata::unicode::is_ascii_char(ch), false);
 
     // åä¸ã³ã¼ããªã®ã§æ¯è¼ãã¦åãã«ãªãã¯ãã
     asserter->check(ch == ch2, false, "chã¨ch2ãç°ãªã");
@@ -49,17 +49,17 @@ bool utf8_multichar_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     return asserter->isOk();
 }
 
-bool utf8_string_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
+bool unicode_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
 {
     // ãã«ããã¤ãã¨asciiæå­ã®æ··å¨æå­ãæ­£ããæ±ããã¨ã®ã§ãã
-    // CUTF8Stringã®ãã¹ã
+    // CUniStringã®ãã¹ã
     
     std::string tmp("ããããsssã(");
 
     smart_ptr<std::istream> ss(new std::stringstream(tmp));
     utakata::utf8::UTF8InputStream stream(ss);
 
-    utakata::utf8_string::UTF8String str(stream.read(5));
+    utakata::unicode::UniString str(stream.read(5));
     asserter->check(str.begin()->toStr(), "ã");
     asserter->check(str.size(), 5);
 
@@ -68,15 +68,15 @@ bool utf8_string_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     asserter->check(str[5].toStr(), "ã");
 
     // æ¬å½ã«åºæ¬çãªãã®ä»¥å¤ã¯ãåä¸ã®ååç©ºéåã«é¢æ°ãç¨æããã¦ããã
-    // utf8_stringããè¿ãããã®ã¯ãUTF8ã®ãã¤ãåãè¨­å®ããæå­åã§ããã¨
+    // unicodeããè¿ãããã®ã¯ãUTF8ã®ãã¤ãåãè¨­å®ããæå­åã§ããã¨
     // ããã
-    asserter->check(utakata::utf8_string::substring(str,0,2).toStr(), "ãã");
-    asserter->check(utakata::utf8_string::substring(str,1,2).toStr(), "ãã");
-    asserter->check(utakata::utf8_string::substring(str, 2).toStr(), "ããsããããs");
+    asserter->check(utakata::unicode::substring(str,0,2).toStr(), "ãã");
+    asserter->check(utakata::unicode::substring(str,1,2).toStr(), "ãã");
+    asserter->check(utakata::unicode::substring(str, 2).toStr(), "ããsããããs");
 
     {
         ss->seekg(0, std::ios::beg);
-        utakata::utf8_string::UTF8String str(stream.read(9));
+        utakata::unicode::UniString str(stream.read(9));
         str += std::string("(");
         asserter->check(str.toStr(), "ããããsssã((");
     }
@@ -86,9 +86,9 @@ bool utf8_string_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     return asserter->isOk();
 }
 
-bool utf8_string_util_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
+bool unicode_util_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
 {
-    // CUTF8Stringã¨å±ã«å©ç¨ããããã®ã¦ã¼ãã£ãªãã£é¢æ°ã®æä½ã
+    // CUniStringã¨å±ã«å©ç¨ããããã®ã¦ã¼ãã£ãªãã£é¢æ°ã®æä½ã
     // è¡ãã
     
     std::string tmp("ããããsssã");
@@ -96,9 +96,9 @@ bool utf8_string_util_test(smart_ptr<simpletest::SimpleTestAsserter> asserter)
     smart_ptr<std::istream> ss(new std::stringstream(tmp));
     utakata::utf8::UTF8InputStream stream(ss);
 
-    utakata::utf8_string::UTF8String str(stream.read(5));
-    utakata::utf8_string::UTF8String str2(stream.read(3));
-    utakata::utf8_string::UTF8String str3 = str;
+    utakata::unicode::UniString str(stream.read(5));
+    utakata::unicode::UniString str2(stream.read(3));
+    utakata::unicode::UniString str3 = str;
 
     // æ¿å¥ãã¦ã¿ãã
     str.insert(str.begin(), str2.begin(), str2.end());
@@ -118,8 +118,8 @@ int main(int argc, char *argv[])
 {
     simpletest::SimpleTestSuite suite("UTF-8 æå­åãã¹ã");
     suite.addTester(sfcr::screate(utf8_multichar_test, suite.getAsserter()));
-    suite.addTester(sfcr::screate(utf8_string_test, suite.getAsserter()));
-    suite.addTester(sfcr::screate(utf8_string_util_test, suite.getAsserter()));
+    suite.addTester(sfcr::screate(unicode_test, suite.getAsserter()));
+    suite.addTester(sfcr::screate(unicode_util_test, suite.getAsserter()));
     suite.run();
     return 0;
 }
diff --git a/test/utf8_test.cpp b/test/utf8_transcoder_test.cpp
similarity index 100%
rename from test/utf8_test.cpp
rename to test/utf8_transcoder_test.cpp
diff --git a/transcoder.h b/transcoder.h
new file mode 100755
index 0000000..5f78bba
--- /dev/null
+++ b/transcoder.h
@@ -0,0 +1,30 @@
+#ifndef _TRANSCODER_H_
+#define _TRANSCODER_H_
+
+namespace utakata {
+
+    namespace port {
+        class IInputPort;
+    };
+
+    namespace transcoder {
+
+        class ITranscoder
+        {
+            // å¥åããããã¤ãåããããããã®å¤å®ã«ãã£ã¦UniCharã«
+            // å¤æããã
+            // ãã®ã¤ã³ã¿ã¼ãã§ã¼ã¹ã¯å¥åå¤ãå¤æããããã ãã®ãã®ã§ããã
+            // schemeã®transcoderã¨ã¯å¤å°æ©è½ãç°ãªãã
+            // ããã¯lexerã®ã¤ã³ã¿ã¼ãã§ã¼ã¹ã§å©ç¨ãããã
+        public:
+            ITranscoder() {}
+            virtual ~ITranscoder() {}
+
+            // æ¸¡ãããInputPortããä¸æå­åã ãèª­ã¿åºãã¦ãunicodeå¤ãè¿ãã
+            virtual unsigned long transcode(port::IInputPort& bytes) = 0;
+        };
+    };
+
+};
+
+#endif /* _TRANSCODER_H_ */
diff --git a/tree.cpp b/tree.cpp
index 1ba0e6b..fd877fa 100755
--- a/tree.cpp
+++ b/tree.cpp
@@ -6,14 +6,14 @@
 #include "tree.h"
 #include <stack>
 
-#include "utf8_string.h"
+#include "unicode.h"
 #include "literal_data.h"
 #include "literal.h"
 #include "datum_id.h"
 
 using namespace utakata;
 using namespace utakata::literal;
-using namespace utakata::utf8_string;
+using namespace utakata::unicode;
 using namespace utakata::syntax;
 
 // ååã¨ãã¦ããããåç´ã«å¼ã³ã ãããã®ã¿ã
diff --git a/tree.h b/tree.h
index ce2263a..4b1e0dd 100755
--- a/tree.h
+++ b/tree.h
@@ -7,9 +7,9 @@
 
 namespace utakata {
 
-    namespace utf8_string {
+    namespace unicode {
     
-        class UTF8String;
+        class UniString;
     
     };
 
@@ -125,7 +125,7 @@ namespace utakata {
         std::pair<DatumID, smart_ptr<literal::Literal> > makeAbbreviation (smart_ptr<literal::Literal> l);
 
         // æ¸¡ããtreeã®åå®¹ãæå­åã«å¤æããã
-//        smart_ptr<utf8_string::UTF8String> treeToValue(Tree& t);
+//        smart_ptr<unicode::UniString> treeToValue(Tree& t);
     };
 
 };
diff --git a/unicode.cpp b/unicode.cpp
new file mode 100755
index 0000000..0088d0b
--- /dev/null
+++ b/unicode.cpp
@@ -0,0 +1,242 @@
+#include <vector>
+#include <string>
+#include <functional>
+#include <algorithm>
+
+#include "unicode.h"
+
+using namespace utakata::unicode;
+
+//================================================================================
+
+unicode::UniChar::UniChar() : code_(0)
+{
+}
+
+unicode::UniChar::UniChar(const unicode::UniChar& ch)
+{
+    // åç´ã«ããããã®å¤ãã³ãã¼ããã
+    code_ = ch.code_;
+}
+
+unicode::UniChar& unicode::UniChar::operator=(unicode::unicode_t ch) :
+    code_(ch)
+{
+    // å®å¨ãªã¹ã¯ãããå©ç¨ããã
+
+}
+
+unicode::UniChar& unicode::UniChar::operator=(const unicode::UniChar& ch)
+{
+    // å®å¨ãªã¹ã¯ãããå©ç¨ããã
+    UniChar c(ch);
+    swap(c);
+    return *this;
+}
+
+unicode::UniChar& unicode::UniChar::operator=(unicode::unicode_t ch)
+{
+    code_ = ch;
+    return *this;
+}
+
+bool unicode::UniChar::operator==(const unicode::UniChar& ch) const
+{
+    return ch.code_ == code_;
+}
+
+bool unicode::UniChar::operator!=(const unicode::UniChar& ch) const
+{
+    return !(*this == ch);
+}
+
+bool UniChar::operator<(const UniChar& ch) const
+{
+    return code_ < ch.code_;
+}
+
+bool UniChar::operator>(const UniChar& ch) const
+{
+    return code_ > ch.code_;
+}
+
+bool unicode::UniChar::operator==(unicode::unicode_t ch) const
+{
+    return ch == code_;
+}
+
+bool unicode::UniChar::operator!=(unicode::unicode_t ch) const
+{
+    return !(*this == ch);
+}
+
+bool UniChar::operator<(unicode_t ch) const
+{
+    return code_ < ch;
+}
+
+bool UniChar::operator>(unicode_t ch) const
+{
+    return code_ > ch;
+}
+
+void unicode::UniChar::swap(unicode::UniChar& ch)
+{
+    // å¤ã¨æ¨æºã³ã³ãããªã®ã§ãç¹ã«åé¡ãªãåä½ããã
+    std::swap(code_, ch.code_);
+}
+
+bool unicode::is_ascii(const UniChar& ch)
+{
+    // 0x7f >= ascii >= 0x00 ãasciiãªã®ã§ããã®ç¯å²ã§å¤å®ãè¡ãã
+    return ch >= 0 && ch <= 0x7f ? true : false;
+}
+
+bool unicode::is_numeric(const UniChar& ch)
+{
+    return '0' <= ch && ch <= '9' ? true : false;
+}
+
+bool unicode::is_alpha(const UniChar& ch)
+{
+    // éå¸¸ã®ã¢ã«ãã¡ãããã§ãããã©ãããå¤å¥ããã
+    // å¤§æå­ãå°æå­ã¯åããªãã
+    if (('a' <= ch.getRawCode() && ch.getRawCode() <= 'z') ||
+        ('A' <= ch.getRawCode() && ch.getRawCode() <= 'Z'))
+    {
+        return true;
+    }
+    return false;
+}
+
+//================================================================================
+
+unicode::UniString::UniString() : chars_()
+{
+}
+
+unicode::UniString::UniString(const UniChar& ch, int num) : chars_()
+{
+    chars_.assign(ch, num);
+}
+
+unicode::UniString::UniString(
+    const UniString& str) : chars_(str.chars_)
+{
+}
+
+void UniString::assign(const unicode::UniChar& ch, int num)
+{
+    UniString tmp(ch, num);
+    swap(tmp);
+}
+
+void UniString::assign(const UniString& str)
+{
+    //åºæ¬çã«=ã§æ¸¡ããå ´åã¨å¨ãåããªã®ã§ããã®ããã«ããã
+    UniString tmp(str);
+    swap(tmp);
+}
+
+UniString& UniString::operator=(const UniString& str)
+{
+    assign(str);
+    return *this;
+}
+
+void UniString::swap(UniString& str)
+{
+    // ã·ã³ãã«ã«swapãè¡ãã
+    std::swap(chars_, str.chars_);
+}
+
+UniString& UniString::operator+=(const UniString& str)
+{
+    // ä¸åº¦ã³ãã¼ã¨å ç®ãã¦ããå®éã«swapãããã
+    UniString tmp(str);
+    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
+    return *this;
+}
+
+UniString& UniString::operator+=(const std::vector<unsigned char>& ch)
+{
+    // å®éã«ã¯æå­ãè¨­å®ããã®ã«å©ç¨ãããã
+    // ã¾ãããããå®ç¾©ãã¦ãããã¨ã§ãstreamããã®çµæãç´æ¥è¨­å®ãããã¨ãã§ããã
+    UniString tmp(ch);
+    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
+    return *this;
+}
+
+UniString& UniString::operator+=(const UniChar& ch)
+{
+    // å®éã«ã¯æå­ãè¨­å®ããã®ã«å©ç¨ãããã
+    // ã¾ãããããå®ç¾©ãã¦ãããã¨ã§ãstreamããã®çµæãç´æ¥è¨­å®ãããã¨ãã§ããã
+    UniString tmp(*this);
+    tmp.push_back(ch);
+    swap(tmp);
+    return *this;
+}
+
+void UniString::insert(UniString::iterator it, UniString::iterator begin,
+                       UniString::iterator last)
+{
+    // æ¸¡ãããã®ã¯å®éã«ã¯vectorã®ã¤ãã¬ã¼ã¿ãªã®ã§ã
+    // ãã®ã¾ã¾vectorã®å®è£ã«ä»»ãããã¨ãã§ããã
+    chars_.insert(it, begin, last);
+}
+
+void UniString::insert(UniString::iterator it,
+                       UniString::const_iterator begin,
+                       UniString::const_iterator last)
+{
+    // æ¸¡ãããã®ãconstã§ãããã©ããã¨ããã ãã®éãã§ããããã
+    // ãã®ã¾ã¾æ¸¡ããã¨ãã§ããã
+    chars_.insert(it, begin, last);
+}
+
+//================================================================================
+
+unicode::UniString unicode::substring(
+    const unicode::UniString& str, size_t begin, size_t end)
+{
+    if (end == 0)
+    {
+        // åé ­ããæ«å°¾ã¾ã§ãåå¾ããã
+        UniString s;
+        s.insert(s.begin(), str.begin() + begin, str.end());
+        return s;
+    }
+    else if (begin <= end)
+    {
+        UniString s;
+        s.insert(s.begin(), str.begin() + begin, str.begin() + (begin + end));
+        return s;
+    }
+    else
+    {
+        throw range_error("out of range in unicode::substring");
+    }
+}
+
+UniString unicode::operator+(const UniString& lh, const UniString& rh)
+{
+    // åæ¹ãã³ãã¼ãã¦å ç®ãã¦è¿ããåãè² è·ãé«ãã
+    UniString str(lh);
+    str += rh;
+    return str;
+}
+
+UniString unicode::operator+(const UniString& lh, const UniChar& rh)
+{
+    // æå­ã¨å ç®ããã
+    UniString tmp(lh);
+    tmp += rh.getBytes();
+    return tmp;
+}
+
+UniString unicode::operator+(const UniChar& lh, const UniString& rh)
+{
+    UniString tmp(lh.getBytes());
+    tmp += rh;
+    return tmp;
+}
diff --git a/unicode.h b/unicode.h
new file mode 100755
index 0000000..f28f719
--- /dev/null
+++ b/unicode.h
@@ -0,0 +1,168 @@
+#ifndef _UNICODE_H_
+#define _UNICODE_H_
+
+#include <vector>
+#include <functional>
+#include <string>
+#include <exception>
+
+namespace utakata {
+
+// CUniCharã®ä½æã¨ãCUniCharã®ã³ã³ããã§ããCUniStringãå®ç¾©ããã
+
+        // åé¨ã§å©ç¨ãããunicodeã¹ã«ã©ã¼å¤ã®åã
+        typedef unsigned long unicode_t;
+
+        class range_error : public std::exception
+        {
+        public:
+            range_error(const std::string& str) : str_(str) {}
+            virtual ~range_error() throw() {}
+
+            const char* what() throw() {
+                return str_.c_str();
+            }
+        private:
+
+            std::string str_;
+        };
+    
+        class UniChar
+        {
+            // schemeã«ãããunicodeã¹ã«ã©ã¼å¤ä¸ã¤åãè¡¨ãã
+            // ã¹ã«ã©ã¼å¤ã¯unsigned longã§ä¿æãããåºæ¬çã«ã¯æ§é ä½ã®ããã«
+            // æ¯ãèãã
+        public:
+
+            // ããã©ã«ãã§ã¯nul(0x0000)ãæå®ãããã
+            UniChar();
+            virtual ~UniChar(){}
+
+            // ã³ãã¼ã³ã³ã¹ãã©ã¯ã¿ãå®£è¨ãããããåæã«operator=ãå®£è¨ããã
+            UniChar(const UniChar& ch);
+            UniChar(unicode_t code);
+            UniChar& operator=(const UniChar& ch);
+            UniChar& operator=(unicode_t ch);
+
+            // åæ¼ç®å­ã®ãªã¼ãã¼ã­ã¼ãã
+            // <=ã¨>=ã¯ããããã>ã®çµæã®notã<ã®çµæã®notã
+            // ç¨ãããã¨ã§å®è£ã§ããããããã®äºã¤ã ãä¾ãã¦ããã°åé¡ãªãã
+            bool operator==(const UniChar& code) const;
+            bool operator<(const UniChar& code) const;
+            bool operator>(const UniChar& code) const;
+            bool operator!=(const UniChar& code) const;
+
+            bool operator!=(unicode_t code) const;
+            bool operator==(unicode_t code) const;
+            bool operator<(unicode_t code) const;
+            bool operator>(unicode_t code) const;
+
+            // åé¨ã§ä¿æãã¦ããã³ã¼ããè¿ãã
+            unicode_t getRawCode() const {return this->code_;}
+
+        private:
+
+            // æ¸¡ãããUniCharã®åé¨ã¨äº¤æããã
+            void swap(UniChar& ch);
+
+            unicode_t code_;
+        };
+
+        // åunicodeç¨å¤æç¨ã®é¢æ°ç¾¤ã
+
+        // æ¸¡ãããUniCharãasciiã³ã¼ãã®ç¯å²åã«åã¾ã£ã¦ãããã©ãããè¿ãã
+        bool is_ascii(const UniChar& ch);
+
+        // æ¸¡ãããUniCharããããããæ°å¤ãã¢ã«ãã¡ãããã§ãããã©ãã
+        // ãè¿ãããããã¯utf8ã¢ã¸ã¥ã¼ã«ã®ã¦ã¼ãã£ãªãã£é¢æ°ã«ãã£ã¦å®è£ãããã
+        bool is_numeric(const UniChar& ch);
+        bool is_alpha(const UniChar& ch);
+
+        //================================================================================
+
+        class UniString
+        {
+            // UniCharãè¤æ°é£çµãã¦ä¿æããããã®ã³ã³ãã
+            // ç¸äºã§ã®æ¯è¼ãªã©ããµãã¼ãããutakataã®åé¨å¨è¬ã§
+            // æ¨æºã¨ãã¦ä½¿ç¨ãããã¨ãå¯è½ãªãã®ã¨ãããã¤æ¨æºã³ã³ããã¨
+            // ã»ã¼åæ§ã®å¦çãè¡ããã¨ãã§ããããã«å®ç¾©ããã¦ããã
+            // ã¨ãããåé¨ã§ã¯åç´ãªvectorã§å®ç¾©ããã¦ããããã
+            // typedefãããåãæå®ããã ãã§ãã¤ãã¬ã¼ã¿ã¨ãã¦å©ç¨å¯è½ã
+
+        public:
+
+            // ã¤ãã¬ã¼ã¿ã¨ãã¦ç°¡åã«å©ç¨ããããã®typedefãã¯ã­
+            typedef std::vector<UniChar>::iterator iterator;
+            typedef std::vector<UniChar>::const_iterator const_iterator;
+
+        public:
+
+            UniString();
+            // ç¬¬ä¸å¼æ°ã®chãnumåæ°åè¨­å®ããã
+            UniString(const UniChar& ch, int num);
+            UniString(const UniString& str);
+            virtual ~UniString(){}
+
+            // å®ä½ã«ä»£å¥ãããä»£å¥ãè¡ãããªãã£ãå ´åãåã®ãã¼ã¿
+            // ã¯ä¿å­ãããã
+            void assign(const UniChar& ch, int num);
+            void assign(const UniString& str);
+
+            // iteratorãåå¾ããã
+            const_iterator begin() const {return chars_.begin();}
+            iterator begin() {return chars_.begin();}
+
+            // æ«å°¾ã®ã¤ãã¬ã¼ã¿ãåå¾ããã
+            const_iterator end() const {return chars_.end();}
+            iterator end() {return chars_.end();}
+
+            // []ããªã¼ãã¼ã­ã¼ããããããã¯å¸¸ã«å¢çã®ãã§ãã¯ãè¡ãã
+            const UniChar& operator[](size_t t) const {return chars_.at(t);}
+            UniChar& operator[](size_t t) {
+                return const_cast<UniChar&>(
+                    static_cast<const UniString*>(this)->chars_[t]);}
+
+            // ãµã¤ãºãåå¾ããã
+            size_t size() const {return chars_.size();}
+            // ç©ºãã©ãããèª¿ã¹ãã
+            bool empty() const {return chars_.empty();}
+
+            // å®å¨ãªswapã¨å±ã«æä¾ããã
+            UniString& operator=(const UniString& str);
+
+            // å ç®ã®ã¿ããµãã¼ãããã
+            UniString& operator+=(const UniString& str);
+            UniString& operator+=(const std::vector<unsigned char>& ch);
+            UniString& operator+=(const UniChar& ch);
+            UniString& operator+=(const std::string& str);
+
+            // æ¸¡ããã¤ãã¬ã¼ã¿ã®ç¯å²ãè¿½å ãã
+            // beginã¨lastã¯åä¸ã®UniStringããåå¾ããããã®ã§ãããã¨ã
+            void insert(iterator it, iterator begin, iterator last);
+            void insert(iterator it, const_iterator begin,
+                        const_iterator last);
+
+            // UniCharãåä½ã§æ«å°¾ã«è¿½å ããã
+            void push_back(const UniChar& ch);
+
+        private:
+
+            void swap(UniString& str);
+
+            std::vector<UniChar> chars_;
+        };
+
+        UniString operator+(const UniString& lh, const UniString& rh);
+        UniString operator+(const UniString& lh, const UniChar& rh);
+        UniString operator+(const UniChar& lh, const UniString& rh);
+
+        // substringã®å®è£ãè¡ãã
+        // [begin, end)ã¾ã§ã®æå­ãæå­åã¨ãã¦è¿ãã
+        // endãæ¸¡ãããªããã0ãæ¸¡ãããå ´åãbeginããæ«å°¾ã¾ã§ãè¿ãããã
+        UniString substring(const UniString& str, size_t begin, size_t end = 0);
+
+    };
+
+};
+
+#endif /* _UNICODE_H_ */
diff --git a/utf8.cpp b/utf8.cpp
deleted file mode 100755
index eeb42f6..0000000
--- a/utf8.cpp
+++ /dev/null
@@ -1,379 +0,0 @@
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <string>
-#include <sstream>
-#include <assert.h>
-
-#include "InputStream.h"
-#include "utf8.h"
-#include "smart_ptr.h"
-
-using namespace std;;
-using namespace utakata::utf8;
-
-UTF8InputStream::UTF8InputStream() : EOF_(0xff), strm_(), pos_(0)
-{
-}
-
-UTF8InputStream::UTF8InputStream(smart_ptr<std::istream> strm) : EOF_(0xff), strm_(strm),
-                                                                        pos_(0)
-{
-}
-
-bool UTF8InputStream::open(smart_ptr<std::istream> strm)
-{
-    //ç¾å¨ä¿æãã¦ããã¹ããªã¼ã ã¨åãæ¿ããã
-    // åºæ¬çã«ãã ã¹ã¯ããããã ãã§åé¡ãªãã
-
-    // NULLãã¤ã³ã¿ã§ã¯ãªããåé¡ç¡ãéããã¦ããå ´åã«ã¯ãæ¬¡ã®ããã«ãã¦éå§ããã
-    if (strm.isNull() != false && !strm->good()) {
-        strm_ = strm;
-    } else {
-        return false;
-    }
-    return true;
-}
-
-std::vector<unsigned char> UTF8InputStream::read()
-{
-    // UTF-8ã®ä¸æå­ãèª­ã¿ã ãã¦è¿ãã
-    // UTF-8ã«è©²å½ããªãå ´åãç©ºã®vectorãè¿ãã
-    if (!strm_->eof() && !strm_->good()) {
-        throw StreamException("not ready input stream");
-    }
-
-    // æåã«ä¸æå­ã ãèª­ã¿ã ãã¦ããã§ãã¯ããããã
-    int c = 0;
-    c = strm_->peek();
-    if (c != std::istream::traits_type::eof())
-    {
-        // æ«å°¾ã§ãªãå ´åã®ã¿ãä»¥éã®ãã§ãã¯ã«å¥ãã
-        size_t size = 0;
-        // åé ­1ãã¤ããæ­£å¸¸ã§ãªãã£ãå ´åã¯ãã®ã¾ã¾æãã
-        if (is_utf8_first_byte(static_cast<unsigned char>(c), size))
-        {
-            if (size > 0)
-            {
-                // sizeã0ããå¤§ããå ´åã«ã¯ããã®æè¤æ°ãã¤ãã§æå­ãæ§æ
-                // ããã¦ããã¨èãããããããæç¤ºçã«è¤æ°æå­ãåå¾ããã
-                std::vector<char> tmp(size, 0);
-                strm_->read(&tmp[0], size);
-                
-                if (strm_->bad())
-                {
-                    // èª­ã¿åããããªãã£ãå ´åã«ã¯ãã¹ããªã¼ã ã«ä¸å¿èª­åºãã
-                    // åãåã«æ»ãã
-                    std::for_each(tmp.rbegin(), tmp.rend(), PutBack(strm_));
-                    return std::vector<unsigned char>(1, 0);
-                }
-                std::vector<unsigned char> rtn;
-                rtn.insert(rtn.begin(), tmp.begin(), tmp.end());
-
-                // èª­ã¿ãããã®ã§ã++ããã
-                ++pos_;
-                return rtn;
-            }
-        }
-    }
-
-    return std::vector<unsigned char>(1, EOF_);
-}
-
-std::vector<unsigned char> UTF8InputStream::read(int num)
-{
-    // æå®ãããæå­åã ãèª­ã¿ã ãã¦ããã
-    // éä¸­ã§çµäºããå ´åããã®æå­ã®åã ãunsigned charãæ¸å°ãããã¨
-    // ã«ãªã£ã¦ããã
-    // numã0ã®å ´åãå¿ãç©ºã®vectorãè¿ãããã
-
-    if (num == 0)
-    {
-        return std::vector<unsigned char>();
-    }
-
-    // eofã®å ´åãªãããã®æç¹ã§eofãè¿ãã®ã§ãããã§åé¡ã¯ãªãã
-    std::vector<unsigned char> rtn = this->read();
-    for (int i = 1; i < num && !strm_->eof(); ++i)
-    {
-        // åæ°ã«å°éãããããããã¯eofã¨ãªãã¾ã§ã¯è¿½å ãã¤ã¥ããã
-        std::vector<unsigned char> tmp = this->read();
-        rtn.insert(rtn.end(), tmp.begin(), tmp.end());
-    }
-
-    pos_ += num;
-    
-    return rtn;
-}
-
-std::vector<unsigned char> UTF8InputStream::peek()
-{
-    // ä¸æå­åã ãåèª­ã¿ãããåèª­ã¿ããå ´åãæå­ã¯æ»ãã
-    std::vector<unsigned char> tmp = this->read();
-    // ä¸å¿æ»ããµã¤ãºãå­å¨ããå ´åã ãããããå®è¡ããããã¨ã«ããã
-    if (tmp.size() > 0)
-    {
-        // è¤éãªç¹°ãè¿ããè¡¨ç¾ããå ´åã«ã¯ãç©æ¥µçã«algorithmãå©ç¨ããããã«ããã
-        
-        std::for_each(tmp.rbegin(), tmp.rend(),
-                      utakata::utf8::PutBack(strm_));
-        --pos_;
-    }
-    return tmp;
-}
-
-void UTF8InputStream::unget(const std::vector<unsigned char>& ch)
-{
-    // æ¸¡ããããã¤ãåãã¹ããªã¼ã ã«å·®ãæ»ãã
-    size_t t = 0;
-    if (is_utf8_one(ch, t))
-    {
-        std::for_each(ch.rbegin(), ch.rend(), PutBack(strm_));
-    }
-
-    if (pos_ > 0)
-    {
-        --pos_;
-    }
-}
- 
-bool utakata::utf8::UTF8InputStream::isEOF() const
-{
-    bool ret = false;
-    if (strm_->good())
-    {
-        ret = strm_->eof() ? true : false;
-    }
-    else
-    {
-        ret = true;
-    }
-
-    return ret;
-}
-
-//================================================================================
-
-long utakata::utf8::generateUTF8Code(const std::vector<unsigned char>& bytes)
-{
-    // 1æå­åã®UTF8ã®ãã¤ãåãåãåã£ã¦ãã³ã¼ãã«å¤æãã¦è¿ãã
-    // åé ­ã®å¤ã«ãã£ã¦ãæ¬¡ã®ããã«å¤ãæ±ºå®ãããã¨ãã§ããã
-    // x = utf8ã®åé ­ãã¤ã
-    // y1ãyN = utf8ã®åé ­ãã¤ãä»¥éã®ãã¤ã
-    // N = utf8ã®åé ­ãã¤ããå«ããã¤ãæ°
-    // code = (y1 & ((1 << 7) - 1)) << (6 * n-1) + (y2 & ((1 << 7) -1)) << (6 * (n - 1))...+ x & ((1 << N) -1) << (6 * N-1)
-    // åé ­ãã¤ãä»¥å¤ã¯ãå¨ã¦åé ­ã«10ã¨ãããããè¨­å®ããã¦ããããã®ããããé¤ãã6ããããããã
-    // ã¤ã¾ããæ«å°¾ã®ãã¤ãããé æ¬¡ãã£ã¦ããã°ããã
-
-    std::vector<unsigned char> tmp(bytes);
-    const unsigned char max_c = (1 << (sizeof(unsigned char) * 8 - 1)) - 1;
-    long code = 0;
-
-    if (tmp.empty())
-    {
-        return 0;
-    }
-
-    if (tmp.size() == 1)
-    {
-        // asciiã³ã¼ãã¯7bitãªã®ã§ããã ãåãåã£ã¦è¿ãã
-        code = tmp[0] & max_c;
-    }
-    else
-    {
-        // ä¸æçã«å©ç¨ãããã¯ã©ã¹ã
-        struct Lambda
-        {
-            unsigned char operator()(unsigned char c, int s) {
-                return c << (6 * s);
-            }
-        };
-
-        // ãµã¤ãºã1ä»¥å¤ã®å ´åããããããã¡ã¨éãã
-        std::vector<unsigned char>::reverse_iterator beg = tmp.rbegin(),
-            end = tmp.rend() - 1;
-        const unsigned char char_bit = (1 << 6) - 1;
-        for (int i = 0; beg != end; ++i,++beg)
-        {
-            code += Lambda()((*beg & char_bit), i);
-        }
-
-        // æå¾ã ããå¥ã®è¨ç®ãå¿è¦ã«ãªãã
-        const unsigned char first_byte = (1 << ((sizeof(unsigned char) + 1) - tmp.size())) - 1;
-        code += Lambda()(first_byte,tmp.size() - 1);
-        
-    }
-
-    return code;
-}
-
-
-long utakata::utf8::generateUTF8Code(const std::string& bytes)
-{
-    // UTF8ã§ããä¸æå­ã®stringãåãåã£ã¦ãåé ­1æå­ã®å¤ãè¿ãã
-
-    std::string str = bytes;
-    std::vector<unsigned char> tmp;
-    tmp.insert(tmp.end(), str.begin(), str.end());
-
-    // vectorã«ããªããããå¾ã¯åãã®é¢æ°ã«ä»»ããã
-    return generateUTF8Code(tmp);
-}
-
-bool utakata::utf8::is_utf8_one(const std::vector<unsigned char>& bytes, size_t& size)
-{
-    //æ¸¡ãããã¤ãåãUTF8ã®ä¸æå­ã«è©²å½ãããã©ãããè¿ãã
-    size_t back = size;
-    
-    if (bytes.size() == 0)
-    {
-        size = back;
-        return false;
-    }
-
-    size_t num = 0;
-
-    if (!is_utf8_first_byte(bytes[0], num))
-    {
-        size = back;
-        return false;
-    }
-
-    // ããããbytesã®ãµã¤ãºãè¶³ããªãå ´åã«ãå¤±æã¨ããã
-    if (num > bytes.size())
-    {
-        size = back;
-        return false;
-    }
-
-    // åé ­è¦ç´ ä»¥å¤ãæ­£ãããã°ããã§åé¡ãªãã¨ããã
-    if (num > 1)
-    {
-        
-        const CheckUTF8Byte& checker = for_each(bytes.begin() + 1, bytes.begin() + num,
-                                                 CheckUTF8Byte());
-        
-        if (checker.good)
-        {
-            size = num;
-        } else {
-            size = back;
-            return false;
-        }
-    } else {
-        // sizeã0ã®å ´åã«ã¯ããã®æç¹ã§1ãè¨­å®ããããã«ããã
-        size = num;
-    }
-
-    // æå¾ã¾ã§å°éããæç¹ã§æåã¨ããã
-    return true;
-}
-
-bool utakata::utf8::is_utf8_all(const std::vector<unsigned char>& bytes)
-{
-    // ä¸ãããããã¤ãåå¨ã¦ãUTF-8ã§ãããã©ãããè¿ãã
-    size_t size = 0;
-    std::vector<unsigned char>::const_iterator it = bytes.begin();
-    while (is_utf8_one(std::vector<unsigned char>(it, bytes.end()), size)) {
-        it += size;
-        size = 0;
-    }
-
-    if (it == bytes.end()) {
-        return true;
-    }
-
-    return false;
-}
-
-bool utakata::utf8::is_utf8_first_byte(unsigned char c, size_t& size)
-{
-    // UTf-8ã®åé ­ãã¤ãã§ãããã©ãããè¿ãã
-    // åé ­ãã¤ãã§ããå ´åã«ã¯ããã®åé ­ãã¤ããå«ããä¸æå­ã®ãµã¤ãºãè¿ãã
-    // åé ­ãã¤ãã§ã¯ãªãå ´åã«ã¯ã
-    const unsigned char max_c = 1 << (sizeof(unsigned char) * 8 - 1);
-
-    size_t back = size;
-
-    // æä¸ä½ãããã0ã§ããå ´åãããã¯asciiã³ã¼ããæãã
-    if (!(c & max_c))
-    {
-        size = 1;
-        return true;
-    }
-
-    unsigned char first = c << 1;
-    size_t num = 1;
-    while (first & max_c) {
-        first <<= 1;
-        num += 1;
-    }
-
-    // ããã¾ã§ããã¨ããæä¸ä½ãããã¯0ã§ããã¯ãã
-    // numã5æªæºã§ããå ´åãã¨ããããæ­£å¸¸ã¨ãã¦ãããã¨ã¨ããã
-    const unsigned char max_utf8_sequence = 5;
-    if (num < max_utf8_sequence) {
-        size = num;
-        return true;
-    }
-    else if (num == 1)
-    {
-        // numã1ã®å ´åãä½ããã®çç±ã§åé ­ãæ¬ è½ããã¨è¦ãããã
-        // ãã®å ´åãã¹ã­ããããã¹ããã¤ãæ°ãè¿ãã
-        size = 1;
-        return false;
-    
-    } else {
-        size = back;
-        return false;
-    }
-}
-
-
-bool utakata::utf8::is_utf8_ascii(const std::vector<unsigned char>& bytes)
-{
-    // ä¸æå­ãã¤ã0x00ã0x7fã®ç¯å²ã§ãããã¼ã¿ã§ãããã¨ãæ¡ä»¶ã¨ãªãã
-    size_t s = 0;
-    bool b = is_utf8_one(bytes, s);
-
-    if (b && s == 1)
-    {
-        return true;
-    }
-    return false;
-}
-
-bool utakata::utf8::is_utf8_numeric(const std::vector<unsigned char>& bytes)
-{
-    // ä¸æå­åã ããæ¸¡ããã¦ããã¨å¤æ­ããã
-    if (!is_utf8_ascii(bytes))
-    {
-        return false;
-    }
-
-    if (bytes[0] >= '0' && bytes[0] <= '9')
-    {
-        return true;
-    }
-
-    return false;
-}
-
-bool utakata::utf8::is_utf8_alpha(const std::vector<unsigned char>& bytes)
-{
-    // åããä¸æå­ã§ããã¨å¤å¥ããã
-    // asciiã®ãµãã»ãããªã®ã§ãåã«asciiã§ããã¨å¤å¥ãã¦ããã
-    if (!is_utf8_ascii(bytes))
-    {
-        return false;
-    }
-
-    if ((bytes[0] >= 'a' && bytes[0] <= 'z') ||
-        (bytes[0] >= 'A' && bytes[0] <= 'Z'))
-        
-    {
-        return true;
-    }
-
-    return false;
-}
diff --git a/utf8.h b/utf8.h
deleted file mode 100755
index 6c8b44c..0000000
--- a/utf8.h
+++ /dev/null
@@ -1,135 +0,0 @@
-#ifndef _UTF8_H_
-#define _UTF8_H_
-
-#include <iostream>
-#include <string>
-#include <vector>
-#include <exception>
-
-#include "smart_ptr.h"
-#include "InputStream.h"
-
-namespace utakata {
-
-    namespace utf8 {
-
-        // inputstreamã®æºåãåºæ¥ã¦ããªãå ´åã«éåºãããä¾å¤
-        class StreamException : public std::exception
-        {
-        public:
-            StreamException(const std::string& str) : str_(str) {}
-            virtual ~StreamException() throw() {}
-
-            const char* what() throw() {
-                return str_.c_str();
-            }
-        private:
-
-            std::string str_;
-        };
-
-        class UTF8InputStream : public IInputStream
-        {
-            /**
-               å¥åã¹ããªã¼ã ãããUTF-8ã®ãã¼ã¿ãæå®ããæå­ã ãèª­ã¿ã ãã¦
-               è¿ãã
-            */
-
-            const unsigned char EOF_;
-            
-        public:
-            
-            // å¥åã«å©ç¨ããã¹ããªã¼ã ã¯æåã«æ¸¡ãããã
-            // æåã«æ¸¡ããªãå ´åã«ã¯ãå¾ããéããããã«ãã¦ãããªããããªããªãã
-            UTF8InputStream();
-            UTF8InputStream(smart_ptr<std::istream> strm);
-            virtual ~UTF8InputStream(){}
-
-            bool open(smart_ptr<std::istream> strm);
-
-            std::vector<unsigned char> read();
-            std::vector<unsigned char> read(int num);
-
-            std::vector<unsigned char> peek();
-            std::vector<unsigned char> peek(int num);
-
-            // èª­ã¿åºããæå­æ°ãè¿ãã
-            size_t pos() const {return pos_;}
-
-            // æ¸¡ããvectorãã¹ããªã¼ã ã«æ»ããvectorã¯ãreadã§åå¾ãã
-            // ãã¼ã¿ã®ä¸¦ã³ã§ãªããã°ãªããªããã¤ã¾ããread()ãã
-            // ãã¼ã¿ãæ»ãéã«å©ç¨ããã
-            void unget(const std::vector<unsigned char>& ch);
-
-            // ãã¡ã¤ã«ã®çµç«¯ã«å°éãã¦ãããã©ãããè¿ãã
-            // trueãè¿ãå ´åãreadã®çµæã¯å¸¸ã«EOFæå­ãè¿ãã
-            bool isEOF() const;
-            
-        private:
-
-            smart_ptr<std::istream> strm_;
-            size_t pos_;
-        };
-
-
-        // UTF-8ã®ã³ã¼ããè¡¨ããã¤ãåãUTF-8ã®ã³ã¼ãã«å¤æããã
-        long generateUTF8Code(const std::vector<unsigned char>& code);
-        long generateUTF8Code(const std::string& ch);
-        
-        struct CheckUTF8Byte
-        {
-            // UTF8ã®åé ­ãã¤ãä»¥å¤ã§ãããã©ããããã§ãã¯ããã
-            const unsigned char checker;
-            bool good;
-            CheckUTF8Byte() : checker(0x2), good(true) {}
-
-            template<class T>
-            void operator()(const T& t) {
-                // åé ­ãããã10ã§ã¯ãªãå ´åããã§ãã¯ã«å¤±æããã
-                T tmp = t >> 6;
-                if ( ((tmp & 0x3)) != checker) {
-                    good = false;
-                }
-            }
-        };
-
-        struct PutBack
-        {
-            // æ¸¡ããããã¼ã¿ãistreamã«putbackããã
-            smart_ptr<std::istream> strm_;
-            PutBack(smart_ptr<std::istream> strm) : strm_(strm) {}
-
-            template<class T>
-            void operator()(T t)
-                {
-                    strm_->putback(t);
-                }
-        };
-        
-        // ä¸ãããããã¤ãåã®åé ­ãããUTF8ä¸æå­ã«è©²å½ãã¦ãããã©ãããè¿ãã
-        // ãã¤ãåãUTF8ã«è©²å½ããå ´åããã®ãã¤ãåã®ãµã¤ãºãè¿ãã
-        bool is_utf8_one(const std::vector<unsigned char>& bytes, size_t& size);
-
-        // ä¸ãããããã¤ãåå¨ã¦ããUTF8ã«è©²å½ãã¦ãããã©ãããè¿ãã
-        bool is_utf8_all(const std::vector<unsigned char>& bytes);
-
-        // UTF-8ã®åé ­ãã¤ãã¨ãã¦æ­£ãããã©ã¼ãããã§ãããã©ããã
-        // æ­£ãããã©ã¼ãããã§ããå ´åãæ¸¡ãããã¤ããå«ãããä¸æå­ã§ãã
-        // ãã¤ãæ°ãè¿ãã
-        bool is_utf8_first_byte(unsigned char c, size_t& size);
-
-        // æ¸¡ãããã¤ãåãã0-9ã§å¤å¥ãããæ°å¤æå­ã¨ä¸è´ãããã©ãããè¿ãã
-        // is_asciiã®ãµãã»ãããå¤å¥ãããã®ã§ããã
-        bool is_utf8_numeric(const std::vector<unsigned char>& bytes);
-
-        // æ¸¡ãããã¤ãåããa-zA-Zã®é åã§ãããã©ãããèª¿ã¹ãã
-        // is_asciiã®ãµãã»ãããå¤å¥ãããã®ã§ããã
-        bool is_utf8_alpha(const std::vector<unsigned char>& bytes);
-
-        // æ¸¡ãããã¤ãåãã0x00ã0x7fã®é åã§ãããã©ãããè¿ãã
-        // is_utf8_alpha, is_utf8_numericã®ã¹ã¼ãã¼ã»ããã¨ãªãã
-        bool is_utf8_ascii(const std::vector<unsigned char>& bytes);
-    };
-}
-
-#endif /* _UTF8_H_ */
diff --git a/utf8_string.cpp b/utf8_string.cpp
deleted file mode 100644
index 512b3c1..0000000
--- a/utf8_string.cpp
+++ /dev/null
@@ -1,275 +0,0 @@
-#include <vector>
-#include <string>
-#include <functional>
-#include <algorithm>
-
-#include "utf8.h"
-#include "utf8_string.h"
-
-using namespace utakata::utf8;
-using namespace utakata::utf8_string;
-
-//================================================================================
-
-utakata::utf8_string::UTF8Char::UTF8Char(const std::vector<unsigned char>& utf8) : utf8_bytes_(utf8), utf16_code_(0)
-{
-    this->utf16_code_ = utakata::utf8::generateUTF8Code(utf8_bytes_);
-}
-
-utakata::utf8_string::UTF8Char::UTF8Char(const utakata::utf8_string::UTF8Char& ch)
-{
-    // åç´ã«ããããã®å¤ãã³ãã¼ããã
-    this->utf8_bytes_ = ch.utf8_bytes_;
-    utf16_code_ = ch.utf16_code_;
-}
-
-utakata::utf8_string::UTF8Char& utakata::utf8_string::UTF8Char::operator=(const utakata::utf8_string::UTF8Char& ch)
-{
-    // å®å¨ãªã¹ã¯ãããå©ç¨ããã
-    UTF8Char c(ch);
-    swap(c);
-    return *this;
-}
-
-bool utakata::utf8_string::UTF8Char::operator==(const utakata::utf8_string::UTF8Char& ch) const
-{
-    // å¨ã¦ã®UTF8Charãä¿æãã¦ããUTF16å¤æãæ½ããã
-    // ã³ã¼ãã§æ¯è¼ãè¡ããå®éã«ã¯longã§ã®æ¯è¼ãªã®ã§ããªãéãã
-
-    return ch.utf16_code_ == utf16_code_;
-}
-
-bool utakata::utf8_string::UTF8Char::operator!=(const utakata::utf8_string::UTF8Char& ch) const
-{
-    return !(*this == ch);
-}
-
-bool UTF8Char::operator<(const UTF8Char& ch) const
-{
-    return utf16_code_ < ch.utf16_code_;
-}
-
-bool UTF8Char::operator>(const UTF8Char& ch) const
-{
-    return utf16_code_ > ch.utf16_code_;
-}
-
-
-void utakata::utf8_string::UTF8Char::swap(utakata::utf8_string::UTF8Char& ch)
-{
-    // å¤ã¨æ¨æºã³ã³ãããªã®ã§ãç¹ã«åé¡ãªãåä½ããã
-    std::swap(utf16_code_, ch.utf16_code_);
-    std::swap(utf8_bytes_, ch.utf8_bytes_);
-}
-
-std::string utakata::utf8_string::UTF8Char::toStr() const
-{
-    // åç´ã«ç½®æãè¡ããã
-    std::string tmp;
-    tmp.insert(tmp.end(), utf8_bytes_.begin(), utf8_bytes_.end());
-    return tmp;
-}
-
-bool utakata::utf8_string::is_ascii_char(const UTF8Char& ch)
-{
-    // 0x7f >= ascii >= 0x00 ãasciiãªã®ã§ããã®ç¯å²ã§å¤å®ãè¡ãã
-    return is_utf8_ascii(ch.getBytes()) ? true : false;
-}
-
-bool utakata::utf8_string::is_numeric(const UTF8Char& ch)
-{
-    return is_utf8_numeric(ch.getBytes()) ? true : false;
-}
-
-bool utakata::utf8_string::is_alpha(const UTF8Char& ch)
-{
-    return is_utf8_alpha(ch.getBytes()) ? true : false;
-}
-
-bool utakata::utf8_string::is_eof(const UTF8Char& ch)
-{
-    return ch.getBytes()[0] == 0xff ? true : false;
-}
-
-//================================================================================
-
-utakata::utf8_string::UTF8String::UTF8String() : chars_()
-{
-}
-
-utakata::utf8_string::UTF8String::UTF8String(
-    const std::vector<unsigned char>& bytes) : chars_()
-{
-    assign(bytes);
-}
-
-utakata::utf8_string::UTF8String::UTF8String(
-    const UTF8String& str) : chars_(str.chars_)
-{
-}
-
-void UTF8String::assign(const std::vector<unsigned char>& bytes)
-{
-    // ä¸ããããbytesãé æ¬¡utf8charã«å¤æãã¦ããã
-    // ä¸ããããbytesã®ãã¡ãæå¹ãªãã¼ã¿ã®ã¿ãå¤æãã¦ããã
-    std::vector<UTF8Char> chars;
-    std::vector<unsigned char>::const_iterator it = bytes.begin(),
-        end = bytes.end();
-
-    while (it != end) {
-        size_t i = 0;
-        if (utakata::utf8::is_utf8_one(std::vector<unsigned char>(it, end), i))
-        {
-            // ç´æ¥çæãã¦æ¸¡ãã
-            chars.push_back(std::vector<unsigned char>(it, it + i));
-        }
-        // å¤å¥ã«å¤±æããå ´åã§ããã¹ã­ããããã¹ããã¤ãæ°ã¯
-        // æ¸¡ããã¦ãããããã¨ããããè¿½å ããã ãã§ããã
-        it += i;
-    }
-    // æå¾ã«swapããã¨ããã
-    std::swap(chars_, chars);
-}
-
-void UTF8String::assign(const UTF8String& str)
-{
-    //åºæ¬çã«=ã§æ¸¡ããå ´åã¨å¨ãåããªã®ã§ããã®ããã«ããã
-    UTF8String tmp(str);
-    swap(tmp);
-}
-
-UTF8String& UTF8String::operator=(const UTF8String& str)
-{
-    assign(str);
-    return *this;
-}
-
-void UTF8String::swap(UTF8String& str)
-{
-    // ã·ã³ãã«ã«swapãè¡ãã
-    std::swap(chars_, str.chars_);
-}
-
-UTF8String& UTF8String::operator+=(const UTF8String& str)
-{
-    // ä¸åº¦ã³ãã¼ã¨å ç®ãã¦ããå®éã«swapãããã
-    UTF8String tmp(str);
-    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
-    return *this;
-}
-
-UTF8String& UTF8String::operator+=(const std::vector<unsigned char>& ch)
-{
-    // å®éã«ã¯æå­ãè¨­å®ããã®ã«å©ç¨ãããã
-    // ã¾ãããããå®ç¾©ãã¦ãããã¨ã§ãstreamããã®çµæãç´æ¥è¨­å®ãããã¨ãã§ããã
-    UTF8String tmp(ch);
-    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
-    return *this;
-}
-
-UTF8String& UTF8String::operator+=(const std::string& str)
-{
-    // å®éã«ã¯æå­ãè¨­å®ããã®ã«å©ç¨ãããã
-    // ã¾ãããããå®ç¾©ãã¦ãããã¨ã§ãstreamããã®çµæãç´æ¥è¨­å®ãããã¨ãã§ããã
-    std::vector<unsigned char> t;
-    std::string::const_iterator begin = str.begin(), end = str.end();
-    for (; begin != end; ++begin)
-    {
-        t.push_back(*begin);
-    }
-
-    UTF8String tmp(t);
-    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
-    return *this;
-}
-
-UTF8String& UTF8String::operator+=(const UTF8Char& ch)
-{
-    // å®éã«ã¯æå­ãè¨­å®ããã®ã«å©ç¨ãããã
-    // ã¾ãããããå®ç¾©ãã¦ãããã¨ã§ãstreamããã®çµæãç´æ¥è¨­å®ãããã¨ãã§ããã
-    UTF8String tmp(ch.getBytes());
-    chars_.insert(chars_.end(), tmp.chars_.begin(), tmp.chars_.end());
-    return *this;
-}
-
-
-std::string UTF8String::toStr() const
-{
-    // æå­åã«å¤æããã
-    std::string ret;
-    std::for_each(chars_.begin(), chars_.end(),
-                  UTF8StringToString<UTF8Char>(ret));
-    return ret;
-}
-
-void UTF8String::insert(UTF8String::utf8iterator it, UTF8String::utf8iterator begin,
-                        UTF8String::utf8iterator last)
-{
-    // æ¸¡ãããã®ã¯å®éã«ã¯vectorã®ã¤ãã¬ã¼ã¿ãªã®ã§ã
-    // ãã®ã¾ã¾vectorã®å®è£ã«ä»»ãããã¨ãã§ããã
-    chars_.insert(it, begin, last);
-}
-
-void UTF8String::insert(UTF8String::utf8iterator it,
-                        UTF8String::const_utf8iterator begin,
-                        UTF8String::const_utf8iterator last)
-{
-    // æ¸¡ãããã®ãconstã§ãããã©ããã¨ããã ãã®éãã§ããããã
-    // ãã®ã¾ã¾æ¸¡ããã¨ãã§ããã
-    chars_.insert(it, begin, last);
-}
-
-//================================================================================
-
-utakata::utf8_string::UTF8String utakata::utf8_string::substring(
-    const utakata::utf8_string::UTF8String& str, size_t begin, size_t end)
-{
-    if (end == 0)
-    {
-        // åé ­ããæ«å°¾ã¾ã§ãåå¾ããã
-        UTF8String s;
-        s.insert(s.begin(), str.begin() + begin, str.end());
-        return s;
-    }
-    else if (begin <= end)
-    {
-        UTF8String s;
-        s.insert(s.begin(), str.begin() + begin, str.begin() + (begin + end));
-        return s;
-    }
-    else
-    {
-        throw range_error("out of range in utakata::utf8_string::substring");
-    }
-}
-
-utakata::utf8_string::UTF8String utakata::utf8_string::convert(
-    const std::string& str)
-{
-    UTF8String tmp;
-    tmp += str;
-    return tmp;
-}
-
-UTF8String utakata::utf8_string::operator+(const UTF8String& lh, const UTF8String& rh)
-{
-    // åæ¹ãã³ãã¼ãã¦å ç®ãã¦è¿ããåãè² è·ãé«ãã
-    UTF8String str(lh);
-    str += rh;
-    return str;
-}
-
-UTF8String utakata::utf8_string::operator+(const UTF8String& lh, const UTF8Char& rh)
-{
-    // æå­ã¨å ç®ããã
-    UTF8String tmp(lh);
-    tmp += rh.getBytes();
-    return tmp;
-}
-
-UTF8String utakata::utf8_string::operator+(const UTF8Char& lh, const UTF8String& rh)
-{
-    UTF8String tmp(lh.getBytes());
-    tmp += rh;
-    return tmp;
-}
diff --git a/utf8_string.h b/utf8_string.h
deleted file mode 100755
index 3eeb95d..0000000
--- a/utf8_string.h
+++ /dev/null
@@ -1,210 +0,0 @@
-#ifndef _UTF8_STRING_H_
-#define _UTF8_STRING_H_
-
-#include <vector>
-#include <functional>
-#include <string>
-#include <exception>
-
-
-// UTF8ã®ãã¤ãåããããã¯æå­åãããUTF8ã®ä¸æå­åä½ã§ä¿æãè¡ã
-// CUTF8Charã®ä½æã¨ãCUTF8Charã®ã³ã³ããã§ããCUTF8Stringãå®ç¾©ããã
-
-
-namespace utakata {
-
-    namespace utf8_string {
-
-        class range_error : public std::exception
-        {
-        public:
-            range_error(const std::string& str) : str_(str) {}
-            virtual ~range_error() throw() {}
-
-            const char* what() throw() {
-                return str_.c_str();
-            }
-        private:
-
-            std::string str_;
-        };
-    
-        class UTF8Char
-        {
-            /**
-               UTF8ã¨å¤æ­ããããã¤ãåãåãåããå®éã®å¤ãè¿ãã
-               ããã§è¨ãå®éã®å¤ã¨ã¯ãUTF-8ã§å®ã¾ã£ã¦ãããã¤ãåã®è¡¨ç¾ããã
-               åºå®ã¨ãããè¡¨ç¾é¨åãåé¤ããæå¹ã¨ãããå¤ãçµåããå¤ãæãã
-               ãã®å¤ã¯å®éã®UTF16ã®ã³ã¼ãã¨åä¸ã§ãããå®å¨ãªãããã³ã°ãå¯è½
-               ã¨ãªãã
-
-               110xxxxx 10yyyyyy --> xxxxxyyyyyy = 11bit
-               1110xxxx 10yyyyyy 10zzzzzz --> xxxxyyyyyyzzzzzz = 16bit
-               11110xxx 10yyyyyy 10zzzzzz 10vvvvvv --> xxxyyyyyyzzzzzzvvvvvv = 21bit
-               â»ç­å®ä»æ§ã§ã¯ã5byteä»¥ä¸ã¨ãªãUTF-8ã¯ç°å¸¸ã§ããã¨ãããããã21bitãè¡¨ç¾
-               ã§ããã°ããã
-
-               21bitãååã«è¡¨ç¾ãããã¨ãã§ããæ´æ°åã¯ãlongã®ã¿ã§ãããããå¿ãlongã¨ãã¦
-               è¿ãã
-               intã«æé»ã®ã­ã£ã¹ãããããã¨ãã§ããããintã¯16bitã¾ã§ããä¿æç¾©åãç¡ãããã
-               ååã¨ãã¦CUTF8Charã¯longã§æ±ãã
-            */
-
-        public:
-            // ãã¤ãåãå¿ãæ¸¡ãå¿è¦ãããã
-            UTF8Char(const std::vector<unsigned char>& utf8);
-            virtual ~UTF8Char(){}
-
-            // ã³ãã¼ã³ã³ã¹ãã©ã¯ã¿ãå®£è¨ãããããåæã«operator=ãå®£è¨ããã
-            UTF8Char(const UTF8Char& ch);
-            UTF8Char& operator=(const UTF8Char& ch);
-
-            // åæ¼ç®å­ã®ãªã¼ãã¼ã­ã¼ãã
-            // <=ã¨>=ã¯ããããã>ã®çµæã®notã<ã®çµæã®notã
-            // ç¨ãããã¨ã§å®è£ã§ããããããã®äºã¤ã ãä¾ãã¦ããã°åé¡ãªãã
-            // ã¾ããæ¯è¼ã«ã¯åé¨ã§ä¿æãã¦ããutf16_code_ãç¨ããããã
-            // éåº¦é¢ã§æ°ã«ããå¿è¦ã¯ç¡ãã
-            bool operator==(const UTF8Char& code) const;
-            bool operator<(const UTF8Char& code) const;
-            bool operator>(const UTF8Char& code) const;
-            bool operator!=(const UTF8Char& code) const;
-
-            // UTF8->UTF16ã«å¤æããã³ã¼ããè¿ãã
-            long toUTF16Code() const {return this->utf16_code_;}
-
-            // å®éã®ãã¤ãåãè¿ãã
-            const std::vector<unsigned char>& getBytes() const {return utf8_bytes_;}
-
-            // æå­åã¨ãã¦å¤æãã¦è¿ãã
-            std::string toStr() const;
-
-            // æ¸¡ãããUTF8Charã®åé¨ã¨äº¤æããã
-            void swap(UTF8Char& ch);
-
-        private:
-
-            // utf8ãè¡¨ããã¤ãå
-            std::vector<unsigned char> utf8_bytes_;
-            // æ¸¡ããããã¤ãåãå®éã®ã³ã¼ãã«ãããã®
-            long utf16_code_;
-        };
-
-        // æ¸¡ãããUTF8Charãasciiã³ã¼ãã®ç¯å²åã«åã¾ã£ã¦ãããã©ãããè¿ãã
-        bool is_ascii_char(const UTF8Char& ch);
-
-        // æ¸¡ãããUTF8Charããããããæ°å¤ãã¢ã«ãã¡ãããã§ãããã©ãã
-        // ãè¿ãããããã¯utf8ã¢ã¸ã¥ã¼ã«ã®ã¦ã¼ãã£ãªãã£é¢æ°ã«ãã£ã¦å®è£ãããã
-        bool is_numeric(const UTF8Char& ch);
-        bool is_alpha(const UTF8Char& ch);
-
-        // UTF8ã§ã¯åé ­1ãã¤ãã0xffã«ãªããã¨ã¯ããããªãã®ã§ã
-        // åé ­1ãã¤ãã0xffã®å ´åã«ã¯ãããã¯çµç«¯è¨å·ã§ããã¨ããã
-        bool is_eof(const UTF8Char& ch);
-
-        //================================================================================
-
-        class UTF8String
-        {
-            // UTF8ã®æå­åãä¿æããããã®ã³ã³ããã
-            // ç¸äºã§ã®æ¯è¼ãªã©ããµãã¼ãããutakataã®åé¨å¨è¬ã§
-            // æ¨æºã¨ãã¦ä½¿ç¨ãããã¨ãå¯è½ãªãã®ã¨ãããã¤æ¨æºã³ã³ããã¨
-            // ã»ã¼åæ§ã®å¦çãè¡ããã¨ãã§ããããã«å®ç¾©ããã¦ããã
-            // ã¨ãããåé¨ã§ã¯åç´ãªvectorã§å®ç¾©ããã¦ããããã
-            // typedefãããåãæå®ããã ãã§ãã¤ãã¬ã¼ã¿ã¨ãã¦å©ç¨å¯è½ã
-
-        public:
-
-            // ã¤ãã¬ã¼ã¿ã¨ãã¦ç°¡åã«å©ç¨ããããã®typedefãã¯ã­
-            typedef std::vector<UTF8Char>::iterator utf8iterator;
-            typedef std::vector<UTF8Char>::const_iterator const_utf8iterator;
-
-        public:
-            
-            UTF8String();
-
-            UTF8String(const std::vector<unsigned char>& bytes);
-            UTF8String(const UTF8String& str);
-            virtual ~UTF8String(){}
-
-            // å®ä½ã«ä»£å¥ãããä»£å¥ãè¡ãããªãã£ãå ´åãåã®ãã¼ã¿
-            // ã¯ä¿å­ãããã
-            void assign(const std::vector<unsigned char>& bytes);
-            void assign(const UTF8String& str);
-
-            // iteratorãåå¾ããã
-            const_utf8iterator begin() const {return chars_.begin();}
-            utf8iterator begin() {return chars_.begin();}
-
-            // æ«å°¾ã®ã¤ãã¬ã¼ã¿ãåå¾ããã
-            const_utf8iterator end() const {return chars_.end();}
-            utf8iterator end() {return chars_.end();}
-
-            // []ããªã¼ãã¼ã­ã¼ããããããã¯å¸¸ã«å¢çã®ãã§ãã¯ãè¡ãã
-            const UTF8Char& operator[](size_t t) const {return chars_.at(t);}
-            UTF8Char& operator[](size_t t) {
-                return const_cast<UTF8Char&>(
-                    static_cast<const UTF8String*>(this)->chars_[t]);}
-
-            // ãµã¤ãºãåå¾ããã
-            size_t size() const {return chars_.size();}
-            // ç©ºãã©ãããèª¿ã¹ãã
-            bool empty() const {return size() == 0 ? true : false;}
-
-            // å®å¨ãªswapã¨å±ã«æä¾ããã
-            UTF8String& operator=(const UTF8String& str);
-            void swap(UTF8String& str);
-
-            // å ç®ã®ã¿ããµãã¼ãããã
-            UTF8String& operator+=(const UTF8String& str);
-            UTF8String& operator+=(const std::vector<unsigned char>& ch);
-            UTF8String& operator+=(const UTF8Char& ch);
-            UTF8String& operator+=(const std::string& str);
-
-            // std::stringã¸å¤æããããã ããstd::stringä¸ã§ã®insertãªã©ã¯
-            // ä¿è¨¼ã§ããªãã
-            std::string toStr() const;
-
-            // æ¸¡ããã¤ãã¬ã¼ã¿ã®ç¯å²ãè¿½å ãã
-            // beginã¨lastã¯åä¸ã®UTF8Stringããåå¾ããããã®ã§ãããã¨ã
-            void insert(utf8iterator it, utf8iterator begin, utf8iterator last);
-            void insert(utf8iterator it, const_utf8iterator begin,
-                        const_utf8iterator last);
-
-        private:
-
-            std::vector<UTF8Char> chars_;
-        };
-
-        UTF8String operator+(const UTF8String& lh, const UTF8String& rh);
-        UTF8String operator+(const UTF8String& lh, const UTF8Char& rh);
-        UTF8String operator+(const UTF8Char& lh, const UTF8String& rh);
-
-        // std::stringããç´æ¥utf8stringããä½æããã
-        UTF8String convert(const std::string& str);
-
-        // substringã®å®è£ãè¡ãã
-        // [begin, end)ã¾ã§ã®æå­ãæå­åã¨ãã¦è¿ãã
-        // endãæ¸¡ãããªããã0ãæ¸¡ãããå ´åãbeginããæ«å°¾ã¾ã§ãè¿ãããã
-        UTF8String substring(const UTF8String& str, size_t begin, size_t end = 0);
-
-        template<class T>
-        class UTF8StringToString : public std::unary_function<T, void>
-        {
-            // ã¤ãã¬ã¼ã¿ãåãåããstd::stringãåæåå¼æ°ã§æ¸¡ããããã®ã«
-            // ã³ãã¼ãã¦ããã
-        public:
-
-            UTF8StringToString(std::string& str) : ret_(str) {}
-            void operator()(const T& it) {
-                ret_ += it.toStr();
-            }
-            
-        private:
-            
-            std::string& ret_;
-        };
-    };
-
-};
-
-#endif /* _UTF8_STRING_H_ */
diff --git a/utf8_transcoder.cpp b/utf8_transcoder.cpp
new file mode 100755
index 0000000..763ed70
--- /dev/null
+++ b/utf8_transcoder.cpp
@@ -0,0 +1,251 @@
+#include <algorithm>
+#include <sstream>
+#include <assert.h>
+
+#include "utf8_transcoder.h"
+#include "smart_ptr.h"
+#include "binary_port.h"
+
+using namespace std;;
+using namespace utakata::transcoder;
+using namespace utakata;
+
+unsigned long transcoder::UTF8Transcoder::transcode(port::BinaryInputPort& p)
+{
+    // æ¸¡ããããã¤ããªãã¼ããããä¸æå­ãèª­ã¿ã¨ãã
+    // æåã«ä¸æå­ã ãèª­ã¿ã ãã¦ããã§ãã¯ããããã
+
+    // ã¾ãã¯èª­ã¿åãããããªãã
+    int c = 0;
+    c = strm_->peek();
+
+    std::vector<int> bytes;
+    if (c != std::istream::traits_type::eof())
+    {
+        // æ«å°¾ã§ãªãå ´åã®ã¿ãä»¥éã®ãã§ãã¯ã«å¥ãã
+        size_t size = 0;
+        // åé ­1ãã¤ããæ­£å¸¸ã§ãªãã£ãå ´åã¯ãã®ã¾ã¾æãã
+        if (is_utf8_first_byte(static_cast<unsigned char>(c), size))
+        {
+            if (size > 0)
+            {
+                // sizeã0ããå¤§ããå ´åã«ã¯ããã®æè¤æ°ãã¤ãã§æå­ãæ§æ
+                // ããã¦ããã¨èãããããããæç¤ºçã«è¤æ°æå­ãåå¾ããã
+                // peekããã¦ããã®ã§ãèª­ã¿åãä½ç½®ã¯å¤åããªãã
+                std::vector<int> tmp = strm_->read(size + 1);
+            }
+        }
+    }
+
+    return generate(bytes);
+}
+
+unsigned long transcoder::UTF8Transcoder::generate(const std::vector<int>& bytes)
+{
+    // 1æå­åã®UTF8ã®ãã¤ãåãåãåã£ã¦ãã³ã¼ãã«å¤æãã¦è¿ãã
+    // åé ­ã®å¤ã«ãã£ã¦ãæ¬¡ã®ããã«å¤ãæ±ºå®ãããã¨ãã§ããã
+    // x = utf8ã®åé ­ãã¤ã
+    // y1ãyN = utf8ã®åé ­ãã¤ãä»¥éã®ãã¤ã
+    // N = utf8ã®åé ­ãã¤ããå«ããã¤ãæ°
+    // code = (y1 & ((1 << 7) - 1)) << (6 * n-1) + (y2 & ((1 << 7) -1)) << (6 * (n - 1))...+ x & ((1 << N) -1) << (6 * N-1)
+    // åé ­ãã¤ãä»¥å¤ã¯ãå¨ã¦åé ­ã«10ã¨ãããããè¨­å®ããã¦ããããã®ããããé¤ãã6ããããããã
+    // ã¤ã¾ããæ«å°¾ã®ãã¤ãããé æ¬¡ãã£ã¦ããã°ããã
+
+    const unsigned char max_c = (1 << (sizeof(unsigned char) * 8 - 1)) - 1;
+    unsigned long code = 0;
+
+    // ä¸æå­ãèª­ã¿ã ãã¦ããªããªã0ãè¿ãã
+    if (!bytes.empty())
+    {
+        if (tmp.size() == 1)
+        {
+            // asciiã³ã¼ãã¯7bitãªã®ã§ããã ãåãåã£ã¦è¿ãã
+            code = tmp[0] & max_c;
+        }
+        else
+        {
+            // ä¸æçã«å©ç¨ãããã¯ã©ã¹ã
+            struct Lambda
+            {
+                unsigned char operator()(unsigned char c, int s) {
+                    return c << (6 * s);
+                }
+            };
+
+            // ãµã¤ãºã1ä»¥å¤ã®å ´åããããããã¡ã¨éãã
+            std::vector<unsigned char>::reverse_iterator beg = tmp.rbegin(),
+                end = tmp.rend() - 1;
+            const unsigned char char_bit = (1 << 6) - 1;
+            for (int i = 0; beg != end; ++i,++beg)
+            {
+                code += Lambda()((*beg & char_bit), i);
+            }
+
+            // æå¾ã ããå¥ã®è¨ç®ãå¿è¦ã«ãªãã
+            const unsigned char first_byte = (1 << ((sizeof(unsigned char) + 1) - tmp.size())) - 1;
+            code += Lambda()(first_byte,tmp.size() - 1);
+        }
+    }
+
+    return code;
+}
+
+// utf8é¢é£ã®ä¾¿å©é¢æ°
+
+bool utakata::transcoder::utf8::is_utf8_one(const std::vector<unsigned char>& bytes, size_t& size)
+{
+    //æ¸¡ãããã¤ãåãUTF8ã®ä¸æå­ã«è©²å½ãããã©ãããè¿ãã
+    size_t back = size;
+    
+    if (bytes.size() == 0)
+    {
+        size = back;
+        return false;
+    }
+
+    size_t num = 0;
+
+    if (!is_utf8_first_byte(bytes[0], num))
+    {
+        size = back;
+        return false;
+    }
+
+    // ããããbytesã®ãµã¤ãºãè¶³ããªãå ´åã«ãå¤±æã¨ããã
+    if (num > bytes.size())
+    {
+        size = back;
+        return false;
+    }
+
+    // åé ­è¦ç´ ä»¥å¤ãæ­£ãããã°ããã§åé¡ãªãã¨ããã
+    if (num > 1)
+    {
+        
+        const CheckUTF8Byte& checker = for_each(bytes.begin() + 1, bytes.begin() + num,
+                                                 CheckUTF8Byte());
+        
+        if (checker.good)
+        {
+            size = num;
+        } else {
+            size = back;
+            return false;
+        }
+    } else {
+        // sizeã0ã®å ´åã«ã¯ããã®æç¹ã§1ãè¨­å®ããããã«ããã
+        size = num;
+    }
+
+    // æå¾ã¾ã§å°éããæç¹ã§æåã¨ããã
+    return true;
+}
+
+bool utakata::transcoder::utf8::is_utf8_all(const std::vector<unsigned char>& bytes)
+{
+    // ä¸ãããããã¤ãåå¨ã¦ãUTF-8ã§ãããã©ãããè¿ãã
+    size_t size = 0;
+    std::vector<unsigned char>::const_iterator it = bytes.begin();
+    while (is_utf8_one(std::vector<unsigned char>(it, bytes.end()), size)) {
+        it += size;
+        size = 0;
+    }
+
+    if (it == bytes.end()) {
+        return true;
+    }
+
+    return false;
+}
+
+bool utakata::transcoder::utf8::is_utf8_first_byte(unsigned char c, size_t& size)
+{
+    // UTf-8ã®åé ­ãã¤ãã§ãããã©ãããè¿ãã
+    // åé ­ãã¤ãã§ããå ´åã«ã¯ããã®åé ­ãã¤ããå«ããä¸æå­ã®ãµã¤ãºãè¿ãã
+    // åé ­ãã¤ãã§ã¯ãªãå ´åã«ã¯ã
+    const unsigned char max_c = 1 << (sizeof(unsigned char) * 8 - 1);
+
+    size_t back = size;
+
+    // æä¸ä½ãããã0ã§ããå ´åãããã¯asciiã³ã¼ããæãã
+    if (!(c & max_c))
+    {
+        size = 1;
+        return true;
+    }
+
+    unsigned char first = c << 1;
+    size_t num = 1;
+    while (first & max_c) {
+        first <<= 1;
+        num += 1;
+    }
+
+    // ããã¾ã§ããã¨ããæä¸ä½ãããã¯0ã§ããã¯ãã
+    // numã5æªæºã§ããå ´åãã¨ããããæ­£å¸¸ã¨ãã¦ãããã¨ã¨ããã
+    const unsigned char max_utf8_sequence = 5;
+    if (num < max_utf8_sequence) {
+        size = num;
+        return true;
+    }
+    else if (num == 1)
+    {
+        // numã1ã®å ´åãä½ããã®çç±ã§åé ­ãæ¬ è½ããã¨è¦ãããã
+        // ãã®å ´åãã¹ã­ããããã¹ããã¤ãæ°ãè¿ãã
+        size = 1;
+        return false;
+    
+    } else {
+        size = back;
+        return false;
+    }
+}
+
+
+bool utakata::transcoder::utf8::is_utf8_ascii(const std::vector<unsigned char>& bytes)
+{
+    // ä¸æå­ãã¤ã0x00ã0x7fã®ç¯å²ã§ãããã¼ã¿ã§ãããã¨ãæ¡ä»¶ã¨ãªãã
+    size_t s = 0;
+    bool b = is_utf8_one(bytes, s);
+
+    if (b && s == 1)
+    {
+        return true;
+    }
+    return false;
+}
+
+bool utakata::transcoder::utf8::is_utf8_numeric(const std::vector<unsigned char>& bytes)
+{
+    // ä¸æå­åã ããæ¸¡ããã¦ããã¨å¤æ­ããã
+    if (!is_utf8_ascii(bytes))
+    {
+        return false;
+    }
+
+    if (bytes[0] >= '0' && bytes[0] <= '9')
+    {
+        return true;
+    }
+
+    return false;
+}
+
+bool utakata::transcoder::utf8::is_utf8_alpha(const std::vector<unsigned char>& bytes)
+{
+    // åããä¸æå­ã§ããã¨å¤å¥ããã
+    // asciiã®ãµãã»ãããªã®ã§ãåã«asciiã§ããã¨å¤å¥ãã¦ããã
+    if (!is_utf8_ascii(bytes))
+    {
+        return false;
+    }
+
+    if ((bytes[0] >= 'a' && bytes[0] <= 'z') ||
+        (bytes[0] >= 'A' && bytes[0] <= 'Z'))
+        
+    {
+        return true;
+    }
+
+    return false;
+}
diff --git a/utf8_transcoder.h b/utf8_transcoder.h
new file mode 100755
index 0000000..2dbc5f5
--- /dev/null
+++ b/utf8_transcoder.h
@@ -0,0 +1,94 @@
+#ifndef _UTF8_TRANSCODER_H_
+#define _UTF8_TRANSCODER_H_
+
+#include <iostream>
+#include <string>
+#include <vector>
+
+#include "smart_ptr.h"
+#include "transcoder.h"
+
+namespace utakata {
+
+    namespace port {
+        class BinaryInputPort;
+    };
+
+    namespace transcoder {
+
+        class UTF8Transcoder : public ITranscoder
+        {
+            // UTF-8ã®ãã¤ãåãä¸ããããå ´åã«å©ç¨ãããTranscoder
+        public:
+            UTF8Transcoder() {}
+            virtual ~UTF8Transcoder() {}
+
+            virtual unsigned long transcode(port::BinaryInputPort& p);
+
+        private:
+
+            unsigned long generate(const std::vector<int>& bytes);
+        };
+
+        namespace utf8 {
+
+            // ãããã®ä¾¿å©é¢æ°ã¯ãã¨ãããããã®ä¸­ã«å®ç¾©ãã¦ããã
+
+            struct CheckUTF8Byte
+            {
+                // UTF8ã®åé ­ãã¤ãä»¥å¤ã§ãããã©ããããã§ãã¯ããã
+                const unicode::UniChar checker;
+                bool good;
+                CheckUTF8Byte() : checker(0x2), good(true) {}
+
+                template<class T>
+                void operator()(const T& t) {
+                    // åé ­ãããã10ã§ã¯ãªãå ´åããã§ãã¯ã«å¤±æããã
+                    T tmp = t >> 6;
+                    if ( ((tmp & 0x3)) != checker) {
+                        good = false;
+                    }
+                }
+            };
+
+            struct PutBack
+            {
+                // æ¸¡ããããã¼ã¿ãistreamã«putbackããã
+                smart_ptr<std::istream> strm_;
+                PutBack(smart_ptr<std::istream> strm) : strm_(strm) {}
+
+                template<class T>
+                void operator()(T t)
+                    {
+                        strm_->putback(t);
+                    }
+            };
+        
+            // ä¸ãããããã¤ãåã®åé ­ãããUTF8ä¸æå­ã«è©²å½ãã¦ãããã©ãããè¿ãã
+            // ãã¤ãåãUTF8ã«è©²å½ããå ´åããã®ãã¤ãåã®ãµã¤ãºãè¿ãã
+            bool is_utf8_one(const std::vector<unicode::UniChar>& bytes, size_t& size);
+
+            // ä¸ãããããã¤ãåå¨ã¦ããUTF8ã«è©²å½ãã¦ãããã©ãããè¿ãã
+            bool is_utf8_all(const std::vector<unicode::UniChar>& bytes);
+
+            // UTF-8ã®åé ­ãã¤ãã¨ãã¦æ­£ãããã©ã¼ãããã§ãããã©ããã
+            // æ­£ãããã©ã¼ãããã§ããå ´åãæ¸¡ãããã¤ããå«ãããä¸æå­ã§ãã
+            // ãã¤ãæ°ãè¿ãã
+            bool is_utf8_first_byte(unicode::UniChar c, size_t& size);
+
+            // æ¸¡ãããã¤ãåãã0-9ã§å¤å¥ãããæ°å¤æå­ã¨ä¸è´ãããã©ãããè¿ãã
+            // is_asciiã®ãµãã»ãããå¤å¥ãããã®ã§ããã
+            bool is_utf8_numeric(const std::vector<unicode::UniChar>& bytes);
+
+            // æ¸¡ãããã¤ãåããa-zA-Zã®é åã§ãããã©ãããèª¿ã¹ãã
+            // is_asciiã®ãµãã»ãããå¤å¥ãããã®ã§ããã
+            bool is_utf8_alpha(const std::vector<unicode::UniChar>& bytes);
+
+            // æ¸¡ãããã¤ãåãã0x00ã0x7fã®é åã§ãããã©ãããè¿ãã
+            // is_utf8_alpha, is_utf8_numericã®ã¹ã¼ãã¼ã»ããã¨ãªãã
+            bool is_utf8_ascii(const std::vector<unicode::UniChar>& bytes);
+        };
+    };
+}
+
+#endif /* _UTF8_TRANSCODER_H_ */
-- 
2.11.0