Blair  - Soul Eater Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

• 패스트캠퍼스 데이터분석 부트캠프 12기/Excel

Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

oujin 2023. 12. 28. 12:01
728x90

*** OVER VIEW ***

ch 01 ▶ 대표값으로 데이터 분포 파악하기

ch 02 ▶ 이상치 탐지

ch 03 ▶ 두 변수의 상관관계 분석하기


 

데이터수
평균
중앙값
최빈값
표준편차
표준오차
분산
첨도
왜도
범위
최소값
제1사분위수
중앙값
제3사분위수
최대값
관측수
신뢰수준 95%

을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다


1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다.

 

2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용)

▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 )

Q3 : 제 3사분위수 : quartile ( 범위 , 3 )

▶ IQR = Q3 - Q1

▶Q1-1.5*IQR : 이하를 이상치로 가정

▶ Q3+1.5*IQR : 이상을 이상치로 가정

=IF(OR(조건, 조건), 조건이 맞으면 출력값, 조건이 틀리면 출력값)

 

3. ▶ 정규분포를 활용한 이상치 탐지

1. 데이터가 정규분포 모양인지 확인 (정규성 검정후 진행되어야 )

2. 평균표준편차를 구하기

3. 표준화 Z를 하고 -3~3을 기준으로 밖에 있는 데이터를 이상치로 간주하겠다는 것임

표준화 하기: 각 값 - 평균 / 표준편차

 

평균(M)과 표준 편차(STD)를 구했고, Z=-3 , 3이라고 했을때

Z = - 3 인경우,

( X - M ) / STD = - 3

X - M = - 3 * STD

X = M - 3 * STD = 값 1

 

Z = 3 인경우,

( X - M ) / STD = 3

X - M = 3 * STD

X = M + 3 * STD = 값 2

 

따라서 값 1보다 작거나 값 2보다 크면 이상치라고 간주 가능하다.

=IF(OR( 조건 1, 조건 2 ), 1 ,0 )

 


4. ▶ 박스플롯을 활용한 이상치 탐지

 

 

 

 

 

 

728x90