아�니 이 글자 왜 들어간 거예요? (1)

  • 관리자 신현승
  • 카테고리: 개발이슈
  • 조회수: 32
  • 작성일:

*이 글은 FEConf2024의 발표 <

ockquote>

‘아니 이 글자 왜 들어간 거예요? (부제: 알아두면 가끔 쓸모 있는 한글 유니코드 완전 정복)’
제한재 데니어 CTO

안녕하세요, 제한재입니다. 현재 데니어에서 CTO로 활동하며 의료인 플랫폼을 개발하고 있습니다. 이번 발표에서는 기술 면접에서 유용한 정보들을 가지고 왔습니다.

주요 내용은 다음과 같습니다:

  1. 유니코드 내 한글 구성
  2. euc-kr/cp949 한글 문자 구성과 한계
  3. 생활 속의 utf-8, ucs-2
  4. 조합형 및 완성형 글자 이해하기
  5. 한글 트러블 슈팅 및 깨진 utf 글자 해석 사례

 

유니코드

유니코드 지옥

발표는 한 매니저의 슬랙 메시지에서 시작되었습니다. “긴 글 작성 중 물음표가 자꾸 생겨요.” 유니코드 지옥이라는 표현이 적절했습니다.

유니코드는 모든 문자를 표현하는 표준입니다. 주요 영역은 다음과 같습니다:

이러한 영역의 문자는 모두 유니코드에서 표현됩니다.

 

유니코드에서의 한글

한글은 U+AC00부터 U+D7A3까지 표현됩니다. 조합형 한글은 11,172자로 구성됩니다.

한글 정렬 기준

한글 정렬 기준은 1988년 문교부 고시에 따라 확정되었고, 북한의 정렬은 차이가 있습니다.

 

조합형 유니코드 Hangul Jamo

Hangul Jamo는 초성, 중성, 종성을 조합해 표현합니다.

세벌식 키보드는 초성과 종성을 나누어 입력할 수 있습니다.

 

결합 방법: NFC / NFD

유니코드에서 제공하는 결합 방법으로, 올바르게 결합하고 분해하는 규칙입니다.

 

한글 호환 자모 Hangul Compatibility Jamo

한글 호환 자모는 두벌식 키보드에서 사용하는 방법입니다.

 

다음 글에서는 물음표 문제의 원인과 해결 방법을 다루겠습니다.

 


해당 기사는 GPT를 이용하여 요약한 내용입니다.

원문보기


코멘트 (0)