본문으로 이동

인코딩과 문자 집합/UTF/8

위키책, 위키책

유니코드 코드 포인트를 나타내는 비트들은 여러 부분으로 나뉘어서, UTF-8로 표현된 바이트의 하위 비트들에 들어 가도록 하는 인코딩이다.

코드 범위
(십육진법)
UTF-16BE 표현
(이진법)
UTF-16LE 표현
(이진법)
UTF-8 표현
(이진법)
설명
000000-00007F 00000000 0xxxxxxx 0xxxxxxx 00000000 0xxxxxxx ASCII와 동일한 범위
000080-0007FF 00000xxx xxxxxxxx xxxxxxxx 00000xxx 110xxxxx 10xxxxxx 첫 바이트는 110 또는 1110으로 시작하고, 나머지 바이트들은 10으로 시작함
000800-00FFFF xxxxxxxx yyyyyyyy yyyyyyyy xxxxxxxx 1110xxxx 10xxxxyy 10yyyyyy
010000-10FFFF 110110yy yyxxxxxx 110111xx xxxxxxxx yyxxxxxx 110110yy xxxxxxxx 110111xx 11110zzz 10zzxxxx 10xxxxxx 10xxxxxx UTF-16 서러게이트 쌍 영역 UTF-8로 표시된 비트 패턴은 실제 코드 포인트와 동일하다.