본문 바로가기
데이터분석

데이터 차원이란 무엇인가? – 1차원에서 n차원까지

by 데이터찻집 2025. 8. 15.
반응형

데이터를 다루다 보면 자연스럽게 등장하는 용어 중 하나가 차원(dimension)입니다. 그런데 막상 “차원”이 뭐냐고 물으면, 명확히 설명하기 어려운 경우가 많죠. 이번 글에서는 차원이 데이터에서 무엇을 의미하는지, 왜 중요한지, 그리고 실제 데이터 분석에서 어떻게 적용되는지를 살펴보겠습니다.

1. 1차원 데이터: 가장 단순한 형태

가장 이해하기 쉬운 데이터는 1차원 데이터입니다.

예를 들어, 학생들의 수학 점수만 모아 놓은 데이터가 있다고 합시다.

 
[50, 70, 85, 60, 90]
  • 각 숫자는 한 학생의 수학 점수를 나타냅니다.
  • 데이터 포인트 하나 = 하나의 값
  • 따라서 1차원이라고 부릅니다.

시각적으로 생각하면, 숫자들이 일렬로 늘어선 선형 구조라고 볼 수 있습니다.

 

2. 2차원 데이터: 두 변수의 조합

이제 학생마다 수학 점수와 영어 점수를 동시에 기록했다고 해봅시다.

 
학생1: [50, 80] 학생2: [70, 90] 학생3: [60, 70]
  • 데이터 포인트 하나가 두 개의 값으로 구성됩니다.
  • 즉, 각 학생 = 2차원 데이터
  • 시각화하면 평면상의 점으로 표현할 수 있습니다.
    • x축: 수학 점수
    • y축: 영어 점수

 

3. n차원 데이터: 현실 세계의 데이터

현실에서 우리는 변수 하나로 충분한 정보를 얻지 못합니다. 예를 들어, 한 사람에 대한 데이터를 수집한다고 하면:

  • 나이, 키, 몸무게
  • 수학 점수, 영어 점수
  • 취미, 직업, 소득 등

10개의 변수라면, 각 사람 = 10차원 데이터입니다.

 
[나이, 키, 몸무게, 수학점수, 영어점수, 취미, 직업, 소득, …]
  • n차원 데이터는 직관적으로 보기 어렵지만, 수학적으로는 단순히 n개의 값을 가진 벡터로 생각할 수 있습니다.
  • 데이터 분석과 머신러닝에서는 이 n차원 벡터를 기반으로 모델을 학습하고, 예측이나 분류를 수행합니다.

 

4. 차원의 의미와 중요성

  • 차원 = 한 데이터 포인트가 가지는 변수의 수
  • 낮은 차원: 시각화와 이해가 쉽다 (1D, 2D, 3D)
  • 높은 차원: 현실 세계의 복잡한 정보를 담을 수 있다
  • 단점: 차원이 높아지면 직관적 이해가 어렵고, 데이터 sparsity 문제(차원의 저주)가 생기기도 합니다.

 

5. 마무리

데이터 차원은 단순히 숫자 몇 개를 담고 있는지가 아니라, 데이터가 표현할 수 있는 정보의 공간을 의미합니다.
1차원에서 시작해 n차원으로 확장될수록 데이터는 더 풍부해지지만, 분석 방법과 시각화 기법도 더 정교해져야 합니다.

반응형