공부/BackEnd
Spring Boot Spark Kmeans 알고리즘 사용법
Kmeans란? Kmeans란 K-평균 알고리즘을 주어진 데이터를 K개의 클러스터로 묶는 알고리즘입니다. 각 클러스터와 거리 차이 및 분산을 최소화하여 비슷한 유형끼리 그룹화 함으로써 라벨이 달려 있지 않는 데이터에 라벨을 달아주는 역할을 수행합니다. 유기동물을 매칭 해주는 프로젝트를 진행하면서 내가 입력한 실종 동물의 정보와 유사한 유기동물을 매칭 해주는 기능을 만들기 위해 K means 알고리즘을 사용하기로 하였다. 입력 데이터를 Vector화(String을 double 형으로 변환.) 하는 작업이 추가적으로 필요하다. 1. 먼저 spakr의 mllib를 dependencies에 추가하여야 한다. Maven Repository: org.apache.spark » spark-mllib_2.13 » 3...
2022. 6. 7.