Blair  - Soul Eater 2. 친근한 엑셀로 실무 엑셀 데이터 분석및 기초 수학/통계 시작하기(이동훈 강사님)_04

• 패스트캠퍼스 데이터분석 부트캠프 12기

2. 친근한 엑셀로 실무 엑셀 데이터 분석및 기초 수학/통계 시작하기(이동훈 강사님)_04

oujin 2023. 12. 26. 12:34
728x90

● 모든 기술은 사람을 향해야 한다.

● 학창시절에서 나와다른 강점, 다른 가치관을 지닌 사람과 협업을 어떻게 했는지 (성과보다 협업)

● 다른 분야, 기술과의 융합

● 강사님과 슬랙으로 1대1 의논 가능


 

● 기술적 데이터 리터러시: 데이터 종류 유형 특징을 파악하고 기초 통계량 분석할 수 있는 역량

● 해석적 데이터 리터러시: 문제해결방안, 숫자에 의미를 부여하기

● 데이터분석의 정의: 내가 생각하는 나만의 데이터 분석에 대한 정의를 만들기

● 데이터분석에 대한 목적: 인사이트도출(장기적인 목적에서의 교훈을 포함)

문제의 원인발생 시점의 이전의과거에서 왜 문제의 원인이 발생했고 어떻게 해결해야 할것인가 생각하는 시점보다 미래에서 다시 발생하지 않게하기 위해서 어떻게 해야하는지까지 고려하기

● 시티즌 데이터 사이언티스트: 데이터 분석을 할 수있는 직무 산업 전문가


● 탐색적데이터 분석을 해야하는 이유

1.내 입맛대로 수집되는 데이터은 없다

2.수집된 데이터의 특성 및 분포 이해

 

● 기술통계법에서 입력범위 잡을때는 컬럼명까지 잡기 + 첫째행 헤더처리에 체크

 

피벗테이블: 엑셀에서 커다란 표의 데이터를 요약하는 통계표

1. 어떤 데이터를 EDA하는 제일 좋은 방법

2. 어떤 요약통계표를 만들고 싶은지, 어떤 데이터를 기준으로 테이블을 만들지 생각해야함!

3. 내가 만들어야 하는 피벗테이블을 손으로 그려보고 따라그리기!


피벗테이블-피벗테이블분석탭-슬라이서삽입:필터기능

 

 


세일 을 두번 드래그앤 드롭해서 하나는 합계, 하나는 평균으로 표시가능

 

 


디자인탭-부분합,총합계,보고서 레이아웃 으로 테이블 디자인 가능


● YEAR REGION SLAE CATEGORY SEGMENT 등 분류가 되어있는것 위주로 데이터를 살펴보기

● 문자데이터를 값에 넣으면 갯수가 운트됨 (EX) 주문번호를 값에 넣으면 주문 컨수를 카운트 가능!

결측치 처리 방법: 결측치의 유형 및 비율에 따라 적절한 결특치 처리 방법을 결정해야함

1. 제거 :가장단순하지만 통계적편향이 생길 수 있음. 데이터크기의 손실 발생.

2. 치환 :적당한 방법으로 대체하는것(평균), 단순대체하는 방법은 자료의 편향성이 높이고 특성들간의 상관관계를 왜곡할 수 있음. 데이터에 대한 도메인 지식이 있어야 효율적으로, 정확히 결측치 대체 가능

3. 모델기반처리: 결측치를 예측하는 새로운 모델을 구성해 결측치를 채워나가는 방식

 

● 결측치 종류

1. NA : 값이 유효하지 않음

2. NaN: 숫자가 아니다

3. Null: 아무것도 존재하지 않음

4. 빈칸: 데이터가 입력되지 않음


이상치: 지정된 그룹에 분류되지 못하는 값으로, 정산군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

● 이상치는 상황에 따아서 제거하지 않고 분석해야 하는 경우도 있음

● Z-SCORE: 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 지표

● 자료값-평균/표준편차

● Z-SCORE 특징: 

1. 양의값: 자료값이 평균보다 높다

2. 음의갓: 자료값이 평균보다 낮다

3. 0근사: 자료값이 평균과 비슷함

4.3이상이거나 -3이하면 일반적으로 이상치로 판한다나,상황에 따라 +-2가 기준이 되거나 +-4가 기준이 될 수 있음


● 1사분위와 3사분위는 구하는 공식이 있음

● IQR: 1시분위수와 3사분위수 간의 거리 = 3사분위수 - 1사분위수

1사분위-1.5*IQR 작은값이 이상치

3사분위+ 1.5*IQR 큰값이 이상치

 

● 값드래그 - 삽입탭- 히스토그램-상자수영

 

● 박스플롯에서 이상치라고 얘기하더라도 현업기준에서는 이상치로 간주하지 않을 수 도 있다.


상관분석: 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

● 상관관계: 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

->상관계수를 통해 파악

●상관계수: 두 변수사이의 상관성을 나타내며 일반적으로 피어슨 상관계수를 사용

X,Y가 함꼐변하는 정도/X,Y가 각각 변하는 정도

1. 1에가까울수록 양의 상관관계(정비례), -1이 가까울수록 음의 상관 관계 (반비례)

2. 일반적으로 0.7 이상이면 강한 양의 상관관계

3. 일반적으로 -0.7 이하이면 강한 음의 상관관계

 

● EDA에서 상관 분석의 역할: 인과관계가 있을 것으로 예상되는 변수들을 선별해 분석의 우선순위를 정할수 있음 -> 시간과 비용의 효율성 증대

● 주의해야 할점: 인과 관계를 가지고 있는 두 변수는 항상 강한 상관 관계를 가지고 있지만,

강한 상관 관계를 가지고 있다고 해서 두 변수가 반드시 인과 관계를 가지는 것은 아님

-> 상관 관계가 높은 변수들을 중심으로 실험을 통해 인과 관걔를 경험적으로 입증해야 함.

 

● 산점도: 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프

 

 

728x90