본문 바로가기

Python/ML

(3)
알고리즘 이해하기 - 유클리드 거리 '거리' 개념은 유사도(Similarity)를 파악하기 위해 많이 쓰입니다. 대표적으로 머신러닝의 K-최근접 이웃(K-Nearest Neighbor) 알고리즘에서 많이 볼 수 있습니다. 오늘은 유클리드 거리에 대해 알아보겠습니다. 1. 유클리드 거리 (Euclidean Distance) 유클리드 거리는 두 점 사이의 거리를 계산할 때 흔히 쓰는 방법입니다. 공식을 보면 피타고라스의 정의와 같음을 알 수 있습니다. 예시는 2차원이지만 차원수가 늘어난다면 각 차원의 차이의 제곱 합의 제곱근이 됩니다. 파이썬으로 구현해보겠습니다. 🔷 코드 def euclidean_distance(x1, x2): distance = 0 for i in range(len(x1)): distance += (x1[i] - x2[i]..
[머신러닝] 캘리포니아 주택 가격 예측 - 2. 데이터 준비하기 머신러닝 프로젝트 처음부터 끝까지 1. 큰 그림 보기 2. 데이터 구하기 3. 데이터로부터 인사이트를 얻기 위한 탐색 및 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택 및 훈련 6. 모델을 상세하게 조정하기 7. 솔루션 제시 8. 시스템 론칭 / 모니터링 / 유지 보수 이번 포스팅에서는 데이터를 불러오고, 머신러닝 훈련 바로 전 단계인 훈련용 세트와 테스트 셋을 나누는 과정까지 알아보도록 하겠습니다. 레쓰꽁!!! 1. 데이터 내려받기 import os import tarfile import urllib DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" HOUSING_PATH = os.path.jo..
[머신러닝] 캘리포니아 주택 가격 예측 - 1. 큰 그림 보기 머신러닝 프로젝트 처음부터 끝까지 1. 큰 그림 보기 2. 데이터 구하기 3. 데이터로부터 인사이트를 얻기 위한 탐색 및 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택 및 훈련 6. 모델을 상세하게 조정하기 7. 솔루션 제시 8. 시스템 론칭 / 모니터링 / 유지 보수 1. 큰 그림 보기 - 목표: 캘리포니아 인구조사 데이터를 기반으로 캘리포니아 주택 가격 모델 만들기 - 데이터 특징: 블록 그룹(block group), 인구(population), 중간 소득(median incom), 중간 주택 가격(median housing price) 등을 담고 있음 *블록 그룹: 미국 인구조사국에서 샘플 데이터를 발표하는 데 사용하는 최소한의 지리적 단위 (하나의 블록 그룹 당 보통 600~3..