[Unicode] UTF-8 / UTF-16 / UTF-32

2025. 4. 4. 20:00·ETC
반응형

개요

 유니코드(Unicode)는 전 세계의 모든 문자를 표현할 수 있는 표준 인코딩 방식입니다. 기존의 인코딩 방식(ASCII, ANSI 등)은 특정 언어 전용으로 사용되거나 호환성이 낮아 사용하는데 불편함이 있었고, 유니코드는 이러한 문제를 해결하기 위해 등장했습니다.

 또한 유니코드의 인코딩 방식에는 UTF-8, UTF-16, UTF-32가 존재하며, 상황에 따라 적절한 인코딩 방식을 선택하여 사용해야 합니다.


특징

  • 전 세계의 모든 문자 지원
    • 영어, 한글, 중국어, 일본어, 아랍어 등 모든 언어의 문자를 표현할 수 있습니다.
  • 표준 인코딩 방식
    • 유니코드는 표준 인코딩 방식으로 널리 사용되어, 대부분의 플렛폼에서 같은 내용의 문자로 표현됩니다.
    • 각 문자에 'U+XXXX'와 같은 Code Point를 할당하여 표현합니다.
  • 다양한 인코딩 방식 제공
    • 메모리 사용량과 호환성을 고려하여 UTF-8, UTF-16, UTF-32 등의 인코딩 방식을 지원하며, 일반적으로 UTF-8이 주로 사용됩니다.
    • 각 인코딩 방식은 어느 정도 호환은 되지만, 서로 다른 방식(메모리 크기 등)으로 저장되기 때문에 호환성에 문제가 될 가능성이 있습니다.
  • s

종류

인코딩 방식 크기 특징
UTF-8 1~4 Byte
(가변 길이)
  • ASCII에 해당하는 문자는 1Byte, 한글/한자 등 다른 문자는 3Byte, 특정 이모지는 4Byte를 사용합니다.
  • ASCII와 완벽하게 호환됩니다.
  • 다국어를 지원하면서도 데이터 공간 효율성이 높습니다.
UTF-16 2~4 Byte
(가변 길이)
  • 대부분의 문자는 2Byte, 일부 특수 문자는 4Byte를 사용합니다.
  • Windows에서는 UTF-16을 사용합니다.
UTF-32 4 Byte
(고정 길이)
  • 모든 문자는 4Byte를 사용합니다.
  • 문자 직접 접근 및 검색 속도가 빠릅니다.
  • 가장 직관적이지만 공간 효율성이 낮습니다.
  • 일반적으로 사용되지 않습니다.

 

반응형
'ETC' 카테고리의 다른 글
  • [2024 컴퓨터활용능력 1급 실기] 엑셀(Excel) 주요 개념 정리
  • [UNITY] GitHub Desktop 시작하기
  • [검색 등록] 검색 엔진(Google, Naver)에 사이트 등록하기
HYEOKJUN
HYEOKJUN
프로그래밍 관련 수업이나 웹 사이트에서 직접 얻은 정보를 공유하는 블로그입니다. (일부 잘못된 정보가 포함될 수 있습니다)
  • HYEOKJUN
    HYEOKJUN
    HYEOKJUN
  • 전체
    오늘
    어제
    • 분류 전체보기 (58) N
      • UNITY (18)
        • Tool (9)
        • Script (9)
      • C | C++ (20)
        • Basic (11)
        • STL (8)
        • ETC (1)
      • C# (1)
        • Basic (0)
        • ETC (1)
      • Python (8)
        • Basic (7)
        • Library (1)
        • ETC (0)
      • WEB (2)
        • Basic (2)
      • Skill (5) N
        • 자료구조 (2)
        • 알고리즘 (3) N
      • Workspace (0)
      • ETC (4)
  • 블로그 메뉴

    • 인기 글

    • 태그

      식별자
      std
      while
      heap
      컨테이너
      Localization
      C
      C++
      Python
      C#
      Package
      queue
      Unity
      vector
      red-black tree
      조건문
      자료형
      stack
      반복문
      탐색
    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    HYEOKJUN
    [Unicode] UTF-8 / UTF-16 / UTF-32
    상단으로

    티스토리툴바