본문 바로가기
데이터분석

데이터(Data)

by 데이터찻집 2025. 8. 14.
반응형

1. 데이터의 정의

  • 넓은 의미
    → 세상에서 관찰·측정·수집된 모든 사실(fact), 값(value), 또는 기록(record)
    → 의미를 부여하기 전의 가공되지 않은 정보의 단위
  • 좁은 의미(정보기술)
    → 컴퓨터가 저장·처리할 수 있는 모든 형태의 디지털 표현
    → 수치, 문자, 이미지, 소리, 영상, 센서 신호 등

 

2. 데이터의 본질

데이터는 객관적 사실이지만, 스스로 의미를 갖지 않음.
→ 가공(Processing)과 해석(Interpretation)을 거쳐야 정보(Information)가 되고,
그 정보가 축적되고 맥락이 더해지면 지식(Knowledge)이 됨.

  DIKW 계층  :  데이터 → 정보 → 지식 → 지혜(Wisdom) 

 

 

3. 데이터의 유형

(1) 구조화 기준

정형 데이터 (Structured) 고정된 필드·행·열 형태 DB 테이블, 엑셀, 금융거래 기록 SQL, Pandas
반정형 데이터 (Semi-structured) 구조는 있으나 스키마가 유연함 JSON, XML, HTML NoSQL, 파서(Parser)
비정형 데이터 (Unstructured) 고정된 형식 없음 이미지, 영상, 오디오, 자유형 텍스트 NLP, 컴퓨터 비전, 음성인식

(2) 형태 기준

수치형(Numerical) 연속형(Continuous) / 이산형(Discrete) 온도, 매출액 / 고객 수
범주형(Categorical) 명목형(Nominal) / 서열형(Ordinal) 성별, 국적 / 학점 등급
텍스트(Text) 자연어 데이터 뉴스 기사, SNS 글
시계열(Time-series) 시간 순서에 따라 변화 주식 가격, 센서 측정값
공간·위치(Spatial) 위치·좌표 정보 위도/경도, 지도 데이터
멀티미디어(Multimedia) 이미지, 오디오, 비디오 사진, 음악, 영화

(3) 발생 시점 기준

  • 실시간 데이터 (Real-time) → 주식 거래, 센서 데이터 스트림
  • 배치 데이터 (Batch) → 하루 단위 집계 매출, 로그 파일

(4) 출처 기준

  • 1차 데이터(First-party): 직접 수집 (설문, 측정)
  • 2차 데이터(Second-party): 다른 조직이 수집한 데이터 공유
  • 3차 데이터(Third-party): 상업적/공개 데이터 구매·활용

 

4. 데이터의 주요 속성

  • 정확성(Accuracy): 실제 값과 얼마나 일치하는가
  • 완전성(Completeness): 누락 없이 포함됐는가
  • 일관성(Consistency): 서로 다른 시스템·시간에서 동일한 값 유지
  • 시의성(Timeliness): 필요한 시점에 최신 데이터인가
  • 유효성(Validity): 형식·범위가 규칙에 맞는가

 

5. 데이터의 생명주기(Data Life Cycle)

  1. 생성(Generate): 관찰·측정·수집
  2. 수집(Collect): 센서, 설문, 트랜잭션, 웹 크롤링
  3. 저장(Store): DB, 데이터 웨어하우스, 클라우드
  4. 처리(Process): 정제, 변환, 결측치 처리, 통합
  5. 분석(Analyze): 통계, 머신러닝, 시각화
  6. 활용(Use): 의사결정, 예측, 자동화
  7. 보존/폐기(Archive/Dispose): 보안·규정에 따른 보관·삭제

 

6. 데이터 활용 분야

  • 비즈니스: 마케팅, 고객 세분화, 수요 예측
  • 과학: 천문학 관측, 유전자 분석
  • 의료: 진단 보조, 환자 모니터링
  • 금융: 신용평가, 이상 거래 탐지
  • 공공: 인구 통계, 도시 계획
  • AI/ML: 모델 학습의 원재료
반응형