Blair  - Soul Eater 데이터 모델링 워크플로워

• 패스트캠퍼스 데이터분석 부트캠프 12기

데이터 모델링 워크플로워

oujin 2024. 1. 12. 15:00
728x90

데이터 모델링 워크플로워

1. 데이터 수집: 

코퍼스: 조사나 연구 목적에 의해서 트겅 도메인으로부터 수집된 데이터

 

2.점검 및 탐색:

데이터를 점검하고 탐색하는 단계

탐색적 데이터 분석(EDA)

데이터의 특징과 내재하는 구조적 관계를 알아내는 과정

이 단계에서 시각화오 간단한 통계테스트 진행

 

3. 전처리 및 전제:

분석하기 좋게 데이터 변환


통계적인 분석:

통계적 분석은 가설 검정, 데이터 평가, 결과 또는 가설 입증 및 기각

특정 가설 검정에 적합한 통계모델 사용, 가설 검정 과정에서 p값을 계산하여 통계적 유의성을 판단한다.

 

EDA:

주로 데이터의 특성 및 구조를 이해하고 시각적으로 보여준다.

eda 자체로는 특정 가설을 입증하는데 직성 사용되지 않음

eda는 시각화 기술통계, 그래프, 히스토그램, 상자그림 등의 도구와 방법을 사용해 데이터를 시각적으로 탐색하고 패턴을 발견하고 데이터의 특징을 파악함

 

머신러닝 모델링:

회귀모델의 p값이 0.05를 넘어간다고 해서 머신러닝 모델링이 무용지물이 되는것은 아님. 머신러닝 모델은 데이터의 패턴을 학습하고 예측을 수행하는데 다양한 도구를 제공하며, 통계적 가설 검정과는 다른 목적과 방법을 갖고 있다. 결과적으로 머신어닝 모델은 회귀분석과는 다른 관점에서 데이터를 다룰 수 있고 예측을 위한 도구로 사용가능함.

 

eda시 고려해야 할 8가지:

1. 변수탐색: 독립 변수와 종속변수를 개별적으로 탐색. 변수들의 분포, 기술통계량, 이상치의 존재 여부, 변수간의 관계 살펴보기

2. 상관 관계 탐색: 변수들 간의 상관관계조사. 회귀 모델에서 사용된 독립 변수들 간의 다중공선성(변수 간 상관성)이 높을 수 있으며, 이것이 모델의 통계적 유의성을 낮출 수 있다.

3. 변수 선택: 불필요한 변수를 제거하거나 새로운 변수를 도입하여 모델을 개선 할 수 있는지 고민, 변수 선택 기법을 사용하여 모델의 복잡성을 줄이는 방법 고려

4.모델 개선: 다른 회귀 모델(다중 선형 회귀, 로지스틱 회귀, 의사결정트리, 랜덤포레스트)을 시도하여 모델을 개선 할 수 있는지 확인, 모델의 하이퍼파라미트 조정하여 성능을 향상시킬 수 있음

5. 데이터 전처리: 데이터의 결측치, 이상치, 스케일링 등을 적절하게 처리. 이러한 전처리 단계가 모델의 성능에 영향을 미침

6. 새로운 가설 생성. 데이터를 더 깊에 탐색하면서 새로운 가설 생성, 검증하기, 이 과정에서 유용한 변수나 특징을 찾을 수있다.

7. 교차 검증, 모델의 안정성과 일반화 능력을 평가하기 위해 교차 검증 수행

8. 시각화: 데이터 시각화를 활용하여 패턴을 탐색하고 모델의 결과를 시각적으로 분석, 특히 잔차 분석을 통래 모델의적합성 평가 가능

 

 

728x90