본문 바로가기

Statistics

(4)
[통계] 기초부터 차근차근 - 가중산술평균 ✍ 데이터 분석에서 활용하기 위한 통계를 공부합니다. 🙌 혹시나 잘못된 정보가 있다면 댓글로 알려주시면 감사하겠습니다. :) ✅ 가중산술평균 자료의 평균을 구할 때 자료 값의 중요도나 영향 정도에 해당하는 가중치를 반영하여 구한 평균값 예를 들어, 어느 학생의 성적표가 아래와 같다고 합시다. 국어 영어 수학 체육 음악 90 80 70 85 95 대학 입시에서 일반적인 평균이 아닌, 예체능 계열의 과목에 가중치를 반영하여 평균을 구하고자 합니다. 국어 영어 수학 체육 음악 90 80 70 85 95 10 20 10 15 35 90 * 10 + 80 * 20 + 70 * 10 + 85 * 15 + 95 * 35 = 86.66 10+20+10+15+35 으로 일반 평균과 다르게 산출 되겠죠? 국어 영어 수학 ..
[통계] 기초부터 차근차근 - 영가설, 대립가설, 유의확률, p-value ✍ 데이터 분석에서 활용하기 위한 통계를 공부합니다. 🙌 혹시나 잘못된 정보가 있다면 댓글로 알려주시면 감사하겠습니다. :) ✅ 영가설(귀무가설) 🔸 특별한 증거가 없으면 참으로 추정되는 가설 🔸 검정을 통해 영가설을 기각하고 싶어 함 🔸 H0 으로 표기 ✅ 대립가설 🔸 특별한 증거가 없으면 거짓으로 추정되는 가설 🔸 우리가 궁금한 가설 🔸 H1 또는 Ha로 표기 ✅ 유의확률, p-value 유의확률은 영가설(귀무가설)이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률 ... 너무 어렵죠? 즉, 유의확률 p-value가 작을수록 대립가설을 채택하게 됩니다. 보통 p-value가 0.05, 0.01보다 작으면 대립가설을 채택합니다. ✅ 예시 1 🔸 영가설: 대한민국 성인 남성의 키는 1..
[통계] 기초부터 차근차근 - 백분위수, 사분위수 ✍ 데이터 분석에서 활용하기 위한 통계를 공부합니다. 🙌 혹시나 잘못된 정보가 있다면 댓글로 알려주시면 감사하겠습니다. :) ✅ 백분위수 데이터를 오름차순으로 나열했을 때 백분율로 나타낸 특정 위치의 값 가장 작은 것을 0, 가장 큰 것을 100으로 한다. 100개의 값을 가진 어떤 자료의 20 백분위수는 그 자료의 값들 중 20번째로 작은 값을 뜻한다. 50 백분위수는 중앙값과 같다. ✅ 사분위수 데이터를 오름차순으로 나열했을 때 4등분한 위치의 값 그렇다면, 데이터 분석에서 이를 어떻게 활용할까요? ✍ 주어진 데이터의 분포를 파악하는데 이용합니다. ✍ 보통 사분위수를 이용해 박스플롯을 그리고 이상치를 제거합니다.
[통계] 기초부터 차근차근 - 확률 분포, 이산 확률 변수, 연속 확률 변수 ✍ 데이터 분석에서 활용하기 위한 통계를 공부합니다. 🙌 혹시나 잘못된 정보가 있다면 댓글로 알려주시면 감사하겠습니다. :) ✅ 확률 분포 확률 분포는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 주사위로 많은 분들이 예시를 듭니다. 주사위를 한 번 던질 때 나오는 눈에 대한 것을 확률 변수(상태공간)이라고 하며, 이와 같은 변수는 이산 확률 변수, 연속 확률 변수로 나뉩니다. 변수 종류에 따라 어떤 확률 분포를 가지는지 알아볼까요? ✅ 이산 확률 변수(확률 질량 함수) 상태공간 크기가 유한한 변수 단순히 데이터 타입이 String이라고 해서 이산 확률 변수가 아니라 도메인을 확인해야합니다. 위의 그림을 보면 이산 확률 변수를 명확히 알 수 있는데요, 이산 확률 변수의 확률 분포는 확률 질량 함수..