Blair  - Soul Eater Part 3.ch 02. 기술통계

• 패스트캠퍼스 데이터분석 부트캠프 12기/Excel

Part 3.ch 02. 기술통계

oujin 2023. 12. 28. 10:36
728x90

기술통계와 추론통계의 차이점

기술통계 : EDA 단계에서 주요하게 사용됨

1. 데이터의 간결한 요약정보

2. 수치적인 통계량 또는 시각화

3. 데이터의 특징을 파악하는 관점

 

추론통계

1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함)

2. 모집단에 대한 추론이 목적

3. 전체 모집단을 조사할 수 없을때 유용

4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정

 


대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치

▶ 기초통계량

1. 중심경향성: 데이터의 분포의 중심을 보여주는 값

2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지

3. 왜도: 분포의 좌우 비대칭성 정도

4. 첨도: 분포의 뾰족한 정도


중심경향성: 중심으로 모이는 경향

중심경향성을 나타내는 통계량: 최빈값, 중앙값, 평균값

최빈값:

1. 가장 빈번하게 나타나는 값

2. 특히 범주형 자료에서 대표값으로 최빈값을 주로 사용

중앙값:

1. 자료를 크기 순으로 나열했을 때 가운데 위치하는 값

2. 순서형 자료의 대표값으로 적합한 통계량

3. 이상치에 크게 영향 받지 않음

산술평균:

1. 자료의 값을 모두 더해서 자료의 수로 나눈 값

2. 주로 연속형 자료에 사용

3. 이상치에 영향을 크게 받을 수 있음

가중평균:

1. 자료의 중요도에 따라 가중치를 부여한 평균

2. xi 마다 wi 만큼의 가중치를 준다

기하평균:

1. 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용

2. 주가상승률, CAGR(평균성장률)


퍼짐정도

분산: 시그마제곱

1. 편차제곱의 합을 자료의 수로 나눈 값

2. 편차 제곱의 평균 (표본분산을 구하는 것인지 모분산을 구하는 것인지 알고 공식을 다르게 써야함)

표준편차: 시그마

1. 분산을 제곱근한 값

범위:

1. 관측값에서 가장 큰 값과 가장 작은 값의 차이

2. 최대값 - 최소값

3. 장점: 계산이 쉽고 해석하기도 용이

4. 단점: 범위내의 관측값 분토에 대한 정보를 알 수 없음 , 극단치가 미치는 영향이 매우 큼

IQR

1. 제3사분위수 - 제1사분위수

2. 25% : 제1사분위수 , 75% : 제3사분위수 

3. 한쪽으로 치우친 분포의 퍼짐 정도를 확인 할 때 주로 사용


왜도,첨도

왜도: 분포가 정규분포에 비해 얼마나 비대칭적인지를 나타내는 지표

1. 수치가 갖는 의미, 정교분포와 비교했을때 정교분포인지 아닌지 구분하기

2. 

<0 : nagative skew(오름쪽으로 쏠림) ( 산술평균 , 중위값 , 최빈값 )

=0 : 좌우대칭 

>0 : positive skew (왼쪽으로 쏠림) ( 최빈값 , 중위값 , 산술평균)

3. -3< 사이 <3 : 거의 대칭, 정규분포와 비슷하다고 함

첨도: 평균을 중심으로 얼마나 가까이 몰려있는지 나타내는 지표

1. 양쪽 꼬리의 두터움 정도를 나타내는 값

2. 편차가 큰 데이터가 많을 수록 커짐

3. 이상치에 영향을 많이 받음

4.

-8 : 덜뾰족하다

사이: 정규분포랑 비슷

8: 더 뾰족하다


여러 지표로 살펴보아서 데이터를 가장  잘 설명하는 지표를 설정하는 것이 중요하다

 

 

 

 

 

 

 

 

 

 

728x90