인코딩과 문자 집합/UTF/8
보이기
< 인코딩과 문자 집합 | UTF
유니코드 코드 포인트를 나타내는 비트들은 여러 부분으로 나뉘어서, UTF-8로 표현된 바이트의 하위 비트들에 들어 가도록 하는 인코딩이다.
코드 범위 (십육진법) |
UTF-16BE 표현 (이진법) |
UTF-16LE 표현 (이진법) |
UTF-8 표현 (이진법) |
설명 |
---|---|---|---|---|
000000-00007F | 00000000 0xxxxxxx |
0xxxxxxx 00000000 |
0xxxxxxx |
ASCII와 동일한 범위 |
000080-0007FF | 00000xxx xxxxxxxx |
xxxxxxxx 00000xxx |
110xxxxx 10xxxxxx |
첫 바이트는 110 또는 1110으로 시작하고, 나머지 바이트들은 10으로 시작함 |
000800-00FFFF | xxxxxxxx yyyyyyyy |
yyyyyyyy xxxxxxxx |
1110xxxx 10xxxxyy 10yyyyyy
| |
010000-10FFFF | 110110yy yyxxxxxx 110111xx xxxxxxxx |
yyxxxxxx 110110yy xxxxxxxx 110111xx |
11110zzz 10zzxxxx 10xxxxxx 10xxxxxx |
UTF-16 서러게이트 쌍 영역 UTF-8로 표시된 비트 패턴은 실제 코드 포인트와 동일하다. |