반응형
데이터를 다루다 보면 자연스럽게 등장하는 용어 중 하나가 차원(dimension)입니다. 그런데 막상 “차원”이 뭐냐고 물으면, 명확히 설명하기 어려운 경우가 많죠. 이번 글에서는 차원이 데이터에서 무엇을 의미하는지, 왜 중요한지, 그리고 실제 데이터 분석에서 어떻게 적용되는지를 살펴보겠습니다.
1. 1차원 데이터: 가장 단순한 형태
가장 이해하기 쉬운 데이터는 1차원 데이터입니다.
예를 들어, 학생들의 수학 점수만 모아 놓은 데이터가 있다고 합시다.
[50, 70, 85, 60, 90]
- 각 숫자는 한 학생의 수학 점수를 나타냅니다.
- 데이터 포인트 하나 = 하나의 값
- 따라서 1차원이라고 부릅니다.
시각적으로 생각하면, 숫자들이 일렬로 늘어선 선형 구조라고 볼 수 있습니다.
2. 2차원 데이터: 두 변수의 조합
이제 학생마다 수학 점수와 영어 점수를 동시에 기록했다고 해봅시다.
학생1: [50, 80] 학생2: [70, 90] 학생3: [60, 70]
- 데이터 포인트 하나가 두 개의 값으로 구성됩니다.
- 즉, 각 학생 = 2차원 데이터
- 시각화하면 평면상의 점으로 표현할 수 있습니다.
- x축: 수학 점수
- y축: 영어 점수
3. n차원 데이터: 현실 세계의 데이터
현실에서 우리는 변수 하나로 충분한 정보를 얻지 못합니다. 예를 들어, 한 사람에 대한 데이터를 수집한다고 하면:
- 나이, 키, 몸무게
- 수학 점수, 영어 점수
- 취미, 직업, 소득 등
10개의 변수라면, 각 사람 = 10차원 데이터입니다.
[나이, 키, 몸무게, 수학점수, 영어점수, 취미, 직업, 소득, …]
- n차원 데이터는 직관적으로 보기 어렵지만, 수학적으로는 단순히 n개의 값을 가진 벡터로 생각할 수 있습니다.
- 데이터 분석과 머신러닝에서는 이 n차원 벡터를 기반으로 모델을 학습하고, 예측이나 분류를 수행합니다.
4. 차원의 의미와 중요성
- 차원 = 한 데이터 포인트가 가지는 변수의 수
- 낮은 차원: 시각화와 이해가 쉽다 (1D, 2D, 3D)
- 높은 차원: 현실 세계의 복잡한 정보를 담을 수 있다
- 단점: 차원이 높아지면 직관적 이해가 어렵고, 데이터 sparsity 문제(차원의 저주)가 생기기도 합니다.
5. 마무리
데이터 차원은 단순히 숫자 몇 개를 담고 있는지가 아니라, 데이터가 표현할 수 있는 정보의 공간을 의미합니다.
1차원에서 시작해 n차원으로 확장될수록 데이터는 더 풍부해지지만, 분석 방법과 시각화 기법도 더 정교해져야 합니다.
반응형
'데이터분석' 카테고리의 다른 글
| Matplotlib에서 한글 폰트 지정하는 방법 (1) | 2025.08.15 |
|---|---|
| Google Colab과 Google Drive 연동 방법 (4) | 2025.08.15 |
| JSON이 반정형 데이터에 속하는 이유 (11) | 2025.08.14 |
| 공공데이터포탈에서 오픈API 사용하는 방법 (2) (2) | 2025.08.14 |
| 공공데이터포탈에서 오픈API 사용하는 방법 (1) (3) | 2025.08.14 |