*** OVER VIEW ***
ch 01 ▶ 대표값으로 데이터 분포 파악하기
ch 02 ▶ 이상치 탐지
ch 03 ▶ 두 변수의 상관관계 분석하기
데이터수 |
평균 |
중앙값 |
최빈값 |
표준편차 |
표준오차 |
분산 |
첨도 |
왜도 |
범위 |
최소값 |
제1사분위수 |
중앙값 |
제3사분위수 |
최대값 |
합 |
관측수 |
신뢰수준 95% |
을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다
1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다.
2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용)
▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 )
▶ Q3 : 제 3사분위수 : quartile ( 범위 , 3 )
▶ IQR = Q3 - Q1
▶Q1-1.5*IQR : 이하를 이상치로 가정
▶ Q3+1.5*IQR : 이상을 이상치로 가정
=IF(OR(조건, 조건), 조건이 맞으면 출력값, 조건이 틀리면 출력값)
3. ▶ 정규분포를 활용한 이상치 탐지
1. 데이터가 정규분포 모양인지 확인 (정규성 검정후 진행되어야 )
2. 평균과 표준편차를 구하기
3. 표준화 Z를 하고 -3~3을 기준으로 밖에 있는 데이터를 이상치로 간주하겠다는 것임
표준화 하기: 각 값 - 평균 / 표준편차
평균(M)과 표준 편차(STD)를 구했고, Z=-3 , 3이라고 했을때
Z = - 3 인경우,
( X - M ) / STD = - 3
X - M = - 3 * STD
X = M - 3 * STD = 값 1
Z = 3 인경우,
( X - M ) / STD = 3
X - M = 3 * STD
X = M + 3 * STD = 값 2
따라서 값 1보다 작거나 값 2보다 크면 이상치라고 간주 가능하다.
=IF(OR( 조건 1, 조건 2 ), 1 ,0 )
4. ▶ 박스플롯을 활용한 이상치 탐지
'• 패스트캠퍼스 데이터분석 부트캠프 12기 > Excel' 카테고리의 다른 글
Part 4.ch 03. 두 변수의 상관관계 분석하기 (0) | 2023.12.28 |
---|---|
Part 3.ch 03. 회귀분석, 공분산, 상관계수 (1) | 2023.12.28 |
Part 3.ch 02. 기술통계 (1) | 2023.12.28 |
Part 3.ch 01. 왕초보 고등학교 기초통계 (0) | 2023.12.22 |
Part 2.ch 03. 차트로 엑셀 데이터 쉽게 탐색하기 (0) | 2023.12.22 |