본문 바로가기

분류 전체보기

(45)
[Python] 파이차트를 이용해 시각화하기 matplotlib을 이용해 파이차트로 시각화하기 위해서 무조건 필요한 코드가 있습니다. 파이차트에 나타낼 수치와 라벨입니다. 당연하지만 시각화 방법이 많기에 쉽게 혼동될 수 있습니다. (그건 바로 저...) labels = drinks['continent'].value_counts().index.tolist() ratio = drinks['continent'].value_counts().values.tolist() explode = (0, 0, 0, 0, 0, 0) #조각이 갈라지는 것 표현 plt.pie(ratio, explode=explode, labels=labels, autopct='%.0f%%', shadow=True) plt.title('Chart of continent ratio') plt..
[Python] 유일한 값 확인, 유일한 값의 개수세기 - unique(), nunique(), value_counts() 유일한 값 확인: dataframe.series.unique() 유일한 값 개수 확인: dataframe.series.nunique() 1 2 3 4 pp(cp.item_name.unique()) pp('======================'*4) pp(cp.item_name.nunique()) # pp(len(cp.item_name.unique())) cs 결과 > 위와 같이 unique() 실행 결과는 데이터프레임 중 item_name의 유일한 값들이 어떤 것이 있는지 보여주고, nuique()는 유일한 값들의 개수를 알려준다. 유일한 데이터 종류 및 개수 확인: dataframe.series.value_counts() cp.item_name.value_counts() value_counts()를..
[SQL] 데이터 분석하기 - 구매 지표 추출 데이터 분석의 기초가 되는 SQL을 이용해 데이터를 조회해보도록 하겠습니다. 1. 매출액(일자별, 월별, 연도별) 2. 구매자 수, 구매 건수(일자별, 월별, 연도별) 3. 인당 매출액(연도별) 4. 건당 구매 금액(연도별) 1) 매출액(일자별, 월별, 연도별) a) 일별 매출액 조회 일별 매출액을 조회하려면 주문일과 판매금액이 필요합니다. ERD를 보면 주문 일자(orderdate)는 orders 테이블에 존재하고, 판매액(priceEach x quantityOrdered)은 orderdetails 테이블에 존재합니다. 따라서, 해당 테이블 두 개를 결합해야 합니다. SELECT A.ORDERDATE, PRICEEACH*QUANTITYORDERED FROM CLASSICMODELS.ORDERS A LE..
[머신러닝] 캘리포니아 주택 가격 예측 - 2. 데이터 준비하기 머신러닝 프로젝트 처음부터 끝까지 1. 큰 그림 보기 2. 데이터 구하기 3. 데이터로부터 인사이트를 얻기 위한 탐색 및 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택 및 훈련 6. 모델을 상세하게 조정하기 7. 솔루션 제시 8. 시스템 론칭 / 모니터링 / 유지 보수 이번 포스팅에서는 데이터를 불러오고, 머신러닝 훈련 바로 전 단계인 훈련용 세트와 테스트 셋을 나누는 과정까지 알아보도록 하겠습니다. 레쓰꽁!!! 1. 데이터 내려받기 import os import tarfile import urllib DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" HOUSING_PATH = os.path.jo..
[머신러닝] 캘리포니아 주택 가격 예측 - 1. 큰 그림 보기 머신러닝 프로젝트 처음부터 끝까지 1. 큰 그림 보기 2. 데이터 구하기 3. 데이터로부터 인사이트를 얻기 위한 탐색 및 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택 및 훈련 6. 모델을 상세하게 조정하기 7. 솔루션 제시 8. 시스템 론칭 / 모니터링 / 유지 보수 1. 큰 그림 보기 - 목표: 캘리포니아 인구조사 데이터를 기반으로 캘리포니아 주택 가격 모델 만들기 - 데이터 특징: 블록 그룹(block group), 인구(population), 중간 소득(median incom), 중간 주택 가격(median housing price) 등을 담고 있음 *블록 그룹: 미국 인구조사국에서 샘플 데이터를 발표하는 데 사용하는 최소한의 지리적 단위 (하나의 블록 그룹 당 보통 600~3..