Blair  - Soul Eater Part 3.ch 01. 왕초보 고등학교 기초통계

• 패스트캠퍼스 데이터분석 부트캠프 12기/Excel

Part 3.ch 01. 왕초보 고등학교 기초통계

oujin 2023. 12. 22. 15:54
728x90

***OVER VIEW***

1. 고등학교 기초통계
 변량, 도수, 상대도수, 도수분포표, 히스토그램
 평균, 분산, 표준편차 개념 (도수 있는 경우와 없는 경우)
 통계에 확률변수, 확률분포가 등장하는 이유
 연속형 확률분포와 이산형 확률분포
 확률분포표, 확률밀도함수
 정규분포, 표준정규분포, 표준화
 모집단, 표본, 모평균, 표본평균, 모분산, 표본분산
 추정, 신뢰도, 신뢰구간


2. 기술통계
 기술통계와 추론통계의 차이점
 대표값과 기초통계량
 기초통계량(1) - 중심경향성
 기초통계량(2) - 퍼짐정도

 기초통계량(3) - 왜도,첨도


3. 회귀분석, 공분산, 상관계수
 회귀분석을 공부하는 이유
 공분산 기본 개념
 상관계수 기본 개념


변량: 자료의 수치, 즉 데이터의 값의 의미
계급: 변량을 일정한 간격으로 나눈 구간, 계급을 정할 깨 변량의 최소,최대를 고려

도수: 각 계급에 속하는 변량의 개수

상대도수: 각 계급에 속하는 변량의 비율 


도수분포표: 주어진 자료를 계급에 따라 나눔, 각 계급에 속하는 도수를 조사, 순서대로 요약(순서가 있을때) 또는 차례로

-장점: 구간별 분포를 한눈에 알아보기 좋다

-단점: 각 변량의 정확한 값을 생략

 

히스토그램

피벗차트와 비슷한 형태, 도수분포표를 시각화해서 보는 가장 기본적인 방


평균:

-산술평균: 변량의 합을 변량의 수로 나눈 값

-기하평균,조화평균도 있음..

 

분산: 변량이 중심(평균)에서 얼마나 떨어져 있는지 보기위한 값

편차를 제곱해서 더해서 변량의 수로 나누기 (편차의 제곱의 평균)

-편차: 변량에서 평균을 뺀값

 

표준편차: 분산의 제곱근 (편차의 평균과 비슷함)

-관측값들이 얼마나 흩어져 있는지 하나의 수치로 나타냄

-관측된 변량의 스케일을 표준화 할 수 있는 좋은 수단


통계의 목적: 아직 벌어지지 않은 일을 예측

표현: 일어나지 않은 사건에 대한 가능성을 함수로 나타냄

 

확률 변수란:

일정한 확률을 갖고 일어나는 사건에 수치가 부여된것

엄밀하게는 사건마다 부여된 확률값을 변수로 나타낸것

 

확률 분포

확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸것


연속형 확률분포와 이산형 확률분포

 

● 자료의 종류

-범주형: (명목/순서)

*명목형: 순서없음 (혈액형)

*순서형: 순서있음 (만족도, 학력, 차량크기)

 

-양적: (이산/연속 or 구간/비율)

*이산형: 이산=흩어져있다 (동전이 앞면이 나올때까지 계속 던지면/ 동전10개의 앞뒤면 분포) 

*연속형: (키,몸무게)

 

*구간형: 값의 비교의미 있다. 그러나 비율이나 절대값의미 없다, (기온,연도)

*비율형: 수치가 0을 기준으로 의미를 가짐 (키,몸무게)


확률분포표: 이산형에 적합, 또는 범주형

확률변수의 값에 대해 확률을 표로 표시한 것

이산형 자료의 확률 분포를 표현하기에 적합한 방식

EX) 동전을 10번 던졌을때 나오는 앞면의 수

EX) 1시간 이내에 정류장을 지나가는 버스의 수

 

확률밀도함수: 연속형 자료의 표현에 적함

확률변수의 분포를 나타내는 함수


 

정규분포: 평균(뮤)과 표준편차(시그마)에 대해 확률밀도 함수를 가짐

평균,표준편차에 따라 달라지는 정규분포

 

* 정규분포 왜 중요한가?

1. 많은 분야의 연속형 데이터들이 종모양의 형태를 띤다는 것을 확인

2. 실험 오차를 분석하면서 사용하기 시작

3. 왜 서로 다른 다양한 상황에서 비슷한 분포가 나타날까?

 

*중심극한 정리

1. 독립적인 확률변수들의 평균항상 정규분포에 가까워진다

2. 수학적인 방법을 통해 증명

 

표준 정규 분포: 정규분포 중에서 평균이 0, 표준편차가 1인 정규분포

 

표준화: 다양한 형태의 정규분포를 표준 정규 분포로 변환하는 방법

표준화된 값 =변량 - 평균/ 표준편차

표준정규 분포에 대한 값을 이용해 원래 분포의 확률을 구할 수 있음

 

● 표준화 예시

평균이 170, 표준편차가 5인 정규분포라면, 어떤 사람의 키가 175~180일 확률?

175 - 170 / 5 = 1 = z1

180 - 170 / 5 = 2 = z2

-> 표준 편차가 1이기 때문에 그래프에서 1과 2사이의 면적을 확인 하면됨

 

● 표준화의 중요성

1. 각각의 데이터의 확률을 각각 구하지 않아도됨

2. 다양한 데이터를 균일한 기준으로 비교 가능

3. 이후 다양한 통계량을 구하는 과정에서 계속 등장


모집단: 조사 대상이 되는 전체 집합

모수: 모집단에 대한 요약된 수치 , 값에 대한 평균이나 비율

 

표본: 모집단을 대표하는 모집단의 일부

통계량: 표본에 대한 수치적 요약 ,  통계량을 바탕으로 모수를 추정하는 것이 추론 통계임

 

모분산: 모집단의 분산 (시그마 제곱)

∑(값-모평균)^2 / = var.p

표본분산: 모집단의 일부인 표본에 대한 평균 (에스 제곱)

∑(값-표본평균)^2 / n-1 = var.s

 

● 모분산과 표본분산을 구하는 식이 다른이유: 모평균과 표본평균을 쓰는것이 다르기 때문에 n으로 나누는지 n-1로 나누는지도 달라졌기 때문이다.

 

● 표본 추출의 목적: 표본 데이터를 바탕으로 모집단을 추정하기 위해서, 표본이 커질수록 모평균에 가까워진다.

 

신뢰도: 값이 알맞은 모평균이라고 믿을 수 있는 정도 , 95% 99%를 주로 사용

신뢰구간: 모평균의 추정구간, 신뢰도에 따라 표본의 수에 따라 정해

 

 

 

 

 

 

728x90