UTF-8 vs EUC-KR 어떻게 다른가요?
한국어 문서를 제공하는 웹 사이트에서 흔히 쓰는 문자 인코딩은 EUC-KR 입니다.
마이크로소프트 기반 제품에서는 "ks_c_5607_1987" 을 쓰기도 한다만, 이것은 올바른 이름이 아닙니다.
EUC-KR 은 2byte 로 표현할 수 있는 한글 음절의 수가 2350자로 제한되어 있습니다.
따라서 '','','' 등의 글자를 표현하기 위해서는 8byte 를 써야 합니다.
하지만 KS X 1001 부록 3에서 규정한 이 방법은 mozilla firefox 등 gecko 기반 브라우저만 지원합니다.
따라서... 모든 브라우저에서 현대 한국어의 모든 음절을 불편없이 쓰기 위해서는 유니코드에 바탕을 둔 인코딩 방법인 UTF-8, UTF-16LE (LE 는 Little Endian. 일부 Windows 기반 프로그램에서 'Unicode' 라고 부르는 인코딩 방법은 실제로는 UTF-16LE 입니다), UTF-16BE (BE 는 Big Endian) 등을 써야 합니다.
몇 년 전과는 달리 UTF-8, UTF-16 등을 지원하는 문서 편집기(Windows XP 에서는 노트패드나 워드패드도 지원)와 웹 저작 도구 (예를들어 Dreamweaver, Nvu, Ms FrontPage 등)를 쉽게 구할 수 있습니다.
Oracle, DB2 등 상용 DBMS 는 물론이고, MySQL, Postgres 등 open source DB 도 UTF-8 을 잘 지원하며, Linux 의 기본 인코딩도 UTF-8 입니다.
따라서 UTF-8 (혹은 UTF-16)을 사용할 것을 강력하게 권고 드립니다.
HTML 문서에 UTF-8 을 사용하면 한글 이름을 지닌 파일을 HTML 문서에서 참조할 때 EUC-KR 문서에서 하듯이 한글 부분을 %-escape 하지 않아도 됩니다.
즉, EUC-KR 문서에서는 'http://www.example.com/%B0%A1%B0%A2.jpg' 라고 해야 하지만, UTF-8 문서에서는 'http://www.example.com/가각.jpg' 라고 할 수 있습니다.
이외에도 한국어가 아닌 다른 언어를 지원하거나 (예를들어 한국인을 위한 중국어/일본어/러시아어 사전이나 언어 교육용 웹 사이트), 장차 해외 시장으로 진출할 때 유니코드 기반으로 작업하면 훨씬 편리합니다.
(출처 : 실전 웹 표준 가이드)
'인터넷정보' 카테고리의 다른 글
현재의 웹 페이지에서 신뢰할 수 있는 사이트 목록에 포함되어 있는 사이트를 열려고 합니다. 해당사이트를 열도록 허용하시겠습니까? (0) | 2009.05.01 |
---|---|
[함수] 타도메인 외부사이트의 이미지(파일) 크기 구하기 (0) | 2008.12.02 |
PHP5에서 foreach의 변수참조 (예 EUC-KR → UTF-8로 iconv시 유용) (0) | 2008.12.02 |
파일 용량 체그 표기용 변환 (0) | 2008.12.02 |
인코딩 변환 - mb_convert_encoding() (0) | 2008.11.25 |
로봇 스팸광고 게시물 차단(CAPTCHA) 오픈소스 프로젝트 지엠스팸프리(ZmSpamFree) (0) | 2008.11.04 |
What is SWFObject? SWFObject 무엇입니까? embed? object? (0) | 2008.11.04 |
[HTML] 웹표준으로 플래시 출력 하기 - embed, object, swfobject (0) | 2008.11.04 |
특수 문자 기호의 영어 발음 (0) | 2008.11.01 |
외부, 타도메인 아이피 알아내기 (0) | 2008.10.30 |