Blair  - Soul Eater 2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_11

• 패스트캠퍼스 데이터분석 부트캠프 12기

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_11

oujin 2023. 12. 29. 11:31
728x90

다중 선형회귀 분석: 

독립변수가 2개 이상일때 종속변수와의 관계를 설명

 

다중회귀분석은 조정된 결정계수로 본다. 1에 가가울 수록 회귀모델이 실제값을 잘 설명함

유의한 F값이 0.05 미만이면 이 회귀 모델이 유의미 하므로 사용가능함

p값이 0.05보다 작은 변수들이 종속 변수 y에 영향을 미칠것으로 기대되는 변수들

 

y = ax1 + bx2 + cx3 + Ω


0. 독립변수가 16개 이상이라면 상관분석을 실시하여 값이 높은것을 뽑아 다중회귀분석 실시

1. 모든 변수로 다중 회귀 분석 실시 (단 엑셀에서는 최대 16개까지)

2. 유의미한 변수들로 다중선형회귀 분석 돌리기

3. 각각 단순선형회귀 돌리기


 


시계열 데이터 분석 : 시간의 흐름에 따라 발생괸 데이터를 분석하는 것

정상성: 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 설질

시계열 데이터는 정상 시계열 데이터와 정상성을 가지고 있지 않은 비정상 시계열로 구

 

대부분의 시계열 데이터는 비정상 시계열 데이터인데, 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에

차분이나 다른방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터로 변환해 분석함

 

지수 평활법: 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일 수록 작은 가중치를 둔다.

 

FORECAST.ETS: 엑셀에서 사용 할 수 있는 지수 평활법 관련 예측 함수

예측하고자 하는 날짜(월별이라면 일은 같은 일로 통일 되어있어야함), 우리가 알고있는 과거 시계열 데이터 전부, 과거 날짜 전부, [계절성주기(년단위면 12, 안적으면 알아서 해주는데 원하는 값이 아닐 수도 있음)], [만약 누락값이 있다면 0으로 넣어줄까(0) 평균값을 넣어줄까(1)], [만약 중복일자가 있다면 합칠거냐 큰거?작은거?평균(1)을 쓸건지]) 

 

 


FORECAST.ETS 의 예측값을 그대로 사용하는 것이 아니라 이슈관리를 할 때 사용하는 것이 좋음

평균정확도 92%정도

비교적 뚜렷한 계절성이 있을때 정확도가 꽤 높게 나옴

계절성이라는 것이 있으려면 적어도 그 패턴이 3주기 이상 반복 되어야함 (약3년)

18,19,20로 21 예측하려면 17,18,19로 20 예측값과 비교해서 잘예측될 건지 확인하기

 

그러나 10년치 과거 데이터를 몽땅 확인하는 것은 좋지 앟음( 과거데이터에 가중치 낮음)

10년 7년 4년 으로 잘라서 여러번 비교해보는 것 추천

 

 

 

728x90