scikit-learn

Machine Learning

K-Means++ 개념 정리

K-Means 알고리즘은 제일 처음 k개의 centroids를 선택하기 위해 임의의 데이터 포인트를 지정하였습니다. 그러나 이렇게 랜덤하게 k개의 centroids를 선택하게 되면 optimal cluster가 아닌 suboptimal cluster를 구성하게 될 수 있습니다. 이러한 문제를 해결하는 K-Means++ 알고리즘에 대해서 알아봅시다.

Read
Machine Learning

K-Means Clustering(K 평균 군집화) 개념 정리

현실 세계에서 만나게 되는 데이터에 항상 label이 주어지는 것은 아닙니다. 이러한 unlabeled 데이터에 숨겨진 패턴을 찾아내고 구조화하는 머신러닝 기법을 비지도학습(Unsupervised Learning)이라고 합니다. 비지도학습 알고리즘 중 가장 널리 알려진 K-Means 클러스터링 알고리즘에 대해서 알아봅시다.

Read
Machine Learning

Naive Bayse(나이브 베이즈) 개념 정리

베이즈 정리를 바탕으로 임의의 데이터 포인트가 주어졌을 때 특정 클래스로 예측될 확률을 계산하는 나이브 베이즈 모델에 대해서 알아봅시다

Read
Machine Learning

Random Forest(랜덤 포레스트) 개념 정리

Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있습니다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 이로써는 overfitting을 충분히 해결할 수 없습니다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야합니다. 이는 Random Forest(랜덤 포레스트)의 기원이 되는 아이디어입니다. 이번 포스팅에서는 랜덤 포레스트에 대해서 알아봅시다.

Read