기술통계와 추론통계의 차이점
▶ 기술통계 : EDA 단계에서 주요하게 사용됨
1. 데이터의 간결한 요약정보
2. 수치적인 통계량 또는 시각화
3. 데이터의 특징을 파악하는 관점
▶ 추론통계
1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함)
2. 모집단에 대한 추론이 목적
3. 전체 모집단을 조사할 수 없을때 유용
4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정
▶ 대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치
▶ 기초통계량
1. 중심경향성: 데이터의 분포의 중심을 보여주는 값
2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지
3. 왜도: 분포의 좌우 비대칭성 정도
4. 첨도: 분포의 뾰족한 정도
▶ 중심경향성: 중심으로 모이는 경향
중심경향성을 나타내는 통계량: 최빈값, 중앙값, 평균값
▶ 최빈값:
1. 가장 빈번하게 나타나는 값
2. 특히 범주형 자료에서 대표값으로 최빈값을 주로 사용
▶ 중앙값:
1. 자료를 크기 순으로 나열했을 때 가운데 위치하는 값
2. 순서형 자료의 대표값으로 적합한 통계량
3. 이상치에 크게 영향 받지 않음
▶ 산술평균:
1. 자료의 값을 모두 더해서 자료의 수로 나눈 값
2. 주로 연속형 자료에 사용
3. 이상치에 영향을 크게 받을 수 있음
▶ 가중평균:
1. 자료의 중요도에 따라 가중치를 부여한 평균
2. xi 마다 wi 만큼의 가중치를 준다
▶ 기하평균:
1. 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용
2. 주가상승률, CAGR(평균성장률)
▶ 퍼짐정도:
▶분산: 시그마제곱
1. 편차제곱의 합을 자료의 수로 나눈 값
2. 편차 제곱의 평균 (표본분산을 구하는 것인지 모분산을 구하는 것인지 알고 공식을 다르게 써야함)
▶ 표준편차: 시그마
1. 분산을 제곱근한 값
▶ 범위:
1. 관측값에서 가장 큰 값과 가장 작은 값의 차이
2. 최대값 - 최소값
3. 장점: 계산이 쉽고 해석하기도 용이
4. 단점: 범위내의 관측값 분토에 대한 정보를 알 수 없음 , 극단치가 미치는 영향이 매우 큼
▶ IQR
1. 제3사분위수 - 제1사분위수
2. 25% : 제1사분위수 , 75% : 제3사분위수
3. 한쪽으로 치우친 분포의 퍼짐 정도를 확인 할 때 주로 사용
▶ 왜도,첨도
▶ 왜도: 분포가 정규분포에 비해 얼마나 비대칭적인지를 나타내는 지표
1. 수치가 갖는 의미, 정교분포와 비교했을때 정교분포인지 아닌지 구분하기
2.
<0 : nagative skew(오름쪽으로 쏠림) ( 산술평균 , 중위값 , 최빈값 )
=0 : 좌우대칭
>0 : positive skew (왼쪽으로 쏠림) ( 최빈값 , 중위값 , 산술평균)
3. -3< 사이 <3 : 거의 대칭, 정규분포와 비슷하다고 함
▶ 첨도: 평균을 중심으로 얼마나 가까이 몰려있는지 나타내는 지표
1. 양쪽 꼬리의 두터움 정도를 나타내는 값
2. 편차가 큰 데이터가 많을 수록 커짐
3. 이상치에 영향을 많이 받음
4.
-8 : 덜뾰족하다
사이: 정규분포랑 비슷
8: 더 뾰족하다
여러 지표로 살펴보아서 데이터를 가장 잘 설명하는 지표를 설정하는 것이 중요하다
'• 패스트캠퍼스 데이터분석 부트캠프 12기 > Excel' 카테고리의 다른 글
Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지 (0) | 2023.12.28 |
---|---|
Part 3.ch 03. 회귀분석, 공분산, 상관계수 (1) | 2023.12.28 |
Part 3.ch 01. 왕초보 고등학교 기초통계 (0) | 2023.12.22 |
Part 2.ch 03. 차트로 엑셀 데이터 쉽게 탐색하기 (0) | 2023.12.22 |
Part 2.ch 02. 데이터 탐색과 통계 필요성 (0) | 2023.12.22 |