인코딩과 문자 집합/조합형

한글 조합형 인코딩 또는 조합형은 한글을 그 낱자를 자소별로 코드를 분류하는 방법이다.

종류

종류는 매우 많다.

n바이트 조합형

1980년대 초반에 처음 개발된 방법이다. 한글이 나오는 부분을 SI와 SO로 둘러 싸서 구분하고, 그 안에서는 자모를 나타낸다. 예를 들어 "위키책"은 다음과 같이 표현한다.

<SI>ㅇㅜㅣㅋㅣㅊㅐㄱ<SO>

n바이트 조합형이라는 이름은 한글 한 글자가 2바이트에서 최고 5바이트가 될 수 있기 때문에 붙었다. 단점은 다른 인코딩에 비해 결과물이 다소 길고 가변 길이라서 처리가 불편하다.

당시의 방법은 겹낱자를 한 자소로 배열하지 않았다

3바이트 조합형

한글 한 글자를 초성, 중성, 종성으로 나누고 각각을 인코딩하여 항상 3바이트로 표현하는 방법으로, 겹낱자등도 1바이트에 배정하였다. 최상위비트를 1로 하여 문제도 해소되었으며, 종성에는 채움문자를 배당하였다.

3바이트 조합형의 원리는 KS X 1001의 기타 음절과 유니코드의 옛 한글 표시에 사용되고 있다.

2바이트 조합형

가장 최후에 살아남은 방법이다. 이 방법에서는 2바이트(16비트)를 최상위 1비트, 초성 5비트, 중성 5비트, 종성 5비트로 다음과 같이 나누고, 아스키와 겹치지 않도록 2바이트열의 최상위비트를 1로하였다.

1xxxxxyy yyyzzzzz

이 방법은 3바이트 조합형과 같은 원리를 사용하면서 결과물이 더 짧다. 7비트 환경을 제외하고 널리 사용되었다. 또한 미완성 한글을 2바이트로 표현할 수 있다는 장점도 있다. 그러나 둘째 바이트의 최상위 비트가 0일 수도 있기 때문에 문자열 검색 등에서 문제가 생길 수 있다.

조합형의 사멸

유니코드가 도입되기 이전, 윈도 95에서 조합형대신 확장완성형을 지원하면서 사멸하였다. 대신 유니코드가 조합형의 원리를 계승하면서 11172문자를 자소분리를 쉬운 형태로 배당하였다.