| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 생성형 AI
- Vision AI
- 오픈소스
- tensorRT
- 산업적용
- 리눅스
- git
- 딥러닝
- 시스템관리
- 스마트팩토리
- C++ 기초
- 머신러닝
- 앱테크
- 파이썬
- Windows
- onnx
- AI
- 인공지능
- 프로그래밍
- 비전AI
- YOLO
- stable diffusion
- comfyui
- github
- pytorch
- 딥러닝 추론 최적화
- Python
- 파이썬 클래스
- 생성형AI
- yolo11
Archives
- Today
- Total
너도 할 수 있는, 너도밤나무 코딩
Unsupervised Learning (비지도 학습) 알고리즘 정리 본문
반응형
머신러닝에는 크게 지도학습(Supervised Learning) 과 비지도학습(Unsupervised Learning) 으로 나눌 수 있습니다. 지도학습은 정답(라벨)이 있는 데이터를 기반으로 예측 모델을 학습하는 방식이라면, 비지도학습은 라벨이 없는 데이터에서 숨겨진 구조나 패턴을 찾아내는 것이 핵심입니다.
이번 포스팅에서는 비지도학습의 대표적인 기법과 실제 활용 사례를 정리해보겠습니다.
✅ 비지도 학습의 주요 알고리즘
1. 클러스터링 (Clustering)
- 목적: 유사한 데이터끼리 그룹화
- 예시: 고객을 소비 패턴에 따라 그룹으로 분류
- 대표 알고리즘:
- K-means
- 계층적 군집화(Hierarchical Agglomerative Clustering)
- DBSCAN
- Mean Shift
2. 차원 축소 (Dimensionality Reduction)
- 목적: 데이터의 특성을 유지하면서 불필요한 차원을 줄여 효율성 향상
- 예시: 고해상도 이미지를 압축하면서도 주요 정보는 보존
- 대표 알고리즘:
- 주성분 분석(Principal Component Analysis, PCA)
- 비음수 행렬 분해(Non-negative Matrix Factorization)
📉 차원의 저주 (Curse of Dimensionality)
많은 특징(Feature)이 있다고 해서 항상 좋은 성능을 내는 것은 아닙니다. 오히려 차원이 너무 많으면 성능이 떨어지는 경우가 많습니다.
문제가 되는 이유:
- 스푸리어스 상관(일시적인 가짜 상관관계) 발생
- 신호보다 잡음(Noise)이 많아짐
- 모델이 불필요한 특징까지 고려 → 복잡성 증가
- 학습에 필요한 데이터가 기하급수적으로 늘어남
- 계산량 증가 및 이상치(Outlier) 발생 빈도 상승
👉 해결책: 차원 축소 기법(PCA 등) 을 통해 데이터 구조를 단순화
🔎 클러스터링의 대표적 활용 사례
- 이상 탐지(Anomaly Detection)
- 예: 금융 사기 탐지
- 소수의 거래 패턴이 새로운 클러스터로 분리 → 이상 징후로 감지
- 고객 세분화(Customer Segmentation)
- 고객의 방문 빈도, 최근성, 평균 지출 금액 등으로 그룹화
- 맞춤형 마케팅 전략에 활용
- 지도학습 보완
- 클러스터별로 따로 모델을 학습 (예: 각 그룹마다 로지스틱 회귀 적용) → 성능 향상 가능
🖼️ 차원 축소의 활용 사례
- 이미지 압축
- 고해상도 이미지를 효율적으로 줄이면서 주요 정보 유지
- 영상 추적(Image Tracking)
- 불필요한 잡음을 줄이고 핵심 요소만 남겨 알고리즘 속도 개선
🔑 K-means 클러스터링 정리
작동 방식
- 임의의 중심점(centroid)을 지정
- 각 데이터 포인트를 가까운 중심점에 할당
- 클러스터별 평균값을 기반으로 중심점 갱신
- 더 이상 클러스터 이동이 없을 때 수렴(convergence)
장단점
- 장점: 계산이 간단하고 빠름
- 단점: 초기 중심점 선택에 민감 → 다른 결과가 나올 수 있음
- 해결책: K-means++ 초기화 기법 활용
🎯 최적의 클러스터 수(K) 선택
K값은 사전에 알기 어렵기 때문에, 보통 성능 지표를 활용해 결정합니다.
- Inertia (관성): 각 점과 클러스터 중심점 간 거리 제곱합
- 값이 작을수록 응집도가 높음
- 단점: 데이터가 많아질수록 계속 커짐
- Distortion (왜곡도): 거리 제곱의 평균값
- 값이 작을수록 응집도가 높음
- 데이터가 늘어나도 안정적
👉 응집도를 강조할 땐 Distortion, 클러스터 크기를 고려할 땐 Inertia 활용
📌 마무리
비지도 학습은 데이터에 라벨이 없는 상황에서도 숨겨진 구조를 발견하는 강력한 방법입니다.
- 클러스터링 → 그룹화와 이상 탐지
- 차원 축소 → 효율적 데이터 처리와 성능 향상
특히 실제 비즈니스 현장에서는 고객 세분화, 사기 탐지, 이미지 처리 등 다양한 분야에서 활용되고 있습니다.
데이터가 복잡하고 고차원일수록, 비지도 학습을 활용해 의미 있는 패턴을 단순화하고, 이를 바탕으로 더 나은 의사결정을 할 수 있습니다.
SEO 키워드
비지도학습, 클러스터링, 차원 축소, K-means, PCA, 머신러닝
반응형
'인공지능(AI, Artificial Intelligence)' 카테고리의 다른 글
| Midjourney란? 개념 알아보기 (0) | 2025.12.14 |
|---|---|
| [Perplexity] Comet 브라우저 프로 사용하는 방법 (0) | 2025.10.21 |
| Perplexity AI vs Grok AI 완전 비교 (2025년 최신판) (0) | 2025.10.20 |
| ONNX Runtime에서 CUDA Execution Provider 적용하기 (C++ GPU 추론) (1) | 2025.08.24 |