Blair  - Soul Eater '• 패스트캠퍼스 데이터분석 부트캠프 12기' 카테고리의 글 목록 (6 Page)
728x90

• 패스트캠퍼스 데이터분석 부트캠프 12기 82

[패스트캠퍼스] 데이터분석 부트캠프12기 학습일지_02

2023년 12월 18일부터 데이터분석 부트캠프를 진행하게 되었습니다. 오늘은 12월 29일로 시작한지 12일째 되는 날이네요! 친근한 엑셀로 실무 엑셀 데이터 분석및 기초 수학/통계 시작하기(이동훈 강사님) 데이터 파악하는 방법 ▶ 피벗테이블: 엑셀에서 커다란 표의 데이터를 요약하는 통계표 1. 어떤 데이터를 EDA하는 제일 좋은 방법 2. 어떤 요약통계표를 만들고 싶은지, 어떤 데이터를 기준으로 테이블을 만들지 생각해야함! 3. 내가 만들어야 하는 피벗테이블을 손으로 그려보고 따라그리기! ▶ 결측치 처리 방법: 결측치의 유형 및 비율에 따라 적절한 결특치 처리 방법을 결정해야함 1. 제거 :가장단순하지만 통계적편향이 생길 수 있음. 데이터크기의 손실 발생. 2. 치환 :적당한 방법으로 대체하는것(평균..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_11

다중 선형회귀 분석: 독립변수가 2개 이상일때 종속변수와의 관계를 설명 다중회귀분석은 조정된 결정계수로 본다. 1에 가가울 수록 회귀모델이 실제값을 잘 설명함 유의한 F값이 0.05 미만이면 이 회귀 모델이 유의미 하므로 사용가능함 p값이 0.05보다 작은 변수들이 종속 변수 y에 영향을 미칠것으로 기대되는 변수들 y = ax1 + bx2 + cx3 + Ω 0. 독립변수가 16개 이상이라면 상관분석을 실시하여 값이 높은것을 뽑아 다중회귀분석 실시 1. 모든 변수로 다중 회귀 분석 실시 (단 엑셀에서는 최대 16개까지) 2. 유의미한 변수들로 다중선형회귀 분석 돌리기 3. 각각 단순선형회귀 돌리기 시계열 데이터 분석 : 시간의 흐름에 따라 발생괸 데이터를 분석하는 것 정상성: 추세나 계절성을 가지고 있지 ..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_10

단순 선형회귀분석 : 독립변수 x가 변할때 종속 변수 y가 어떻게 변하는지 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법 -> y와 x사이의 1차 방정식 구하기 오차: 실제값 - 예측값 결정계수: (R^2 , R=상관계수) : 0~1 사이의 값을 가짐, 즉 0% ~ 100%, 높을수록 모델의 설명력을 나타냄, 유의한 F: (p-value) : 귀무가설은 우리가 만든 회귀식이 유의미하지 않다. 대립가설은 회귀식이 유의미 하다를 가지고 가설검정을 한다.따라서 이 유의한 F가 0.05보다 크면 이 모델을 기각해야함. 독립 변수를 버리거나 수정해서 다시 회귀분석을 진행해야함 E-정수 : 매우작은 수 E+정수 : 매우 큰 수 계수: y절편= b , x1 = a ..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_09

대립가설이 맞다고 주장 할 수는 없다 단 귀무가설을 기각시킴으로써 귀무가설과 반대되는 대립가설이 맞다고 하는 것 귀무 가설이 맞다는 전제하에, 내가 뽑았던 표본이나 실험에서 일어나면 안되는 일이 일어난다면 귀무가설을 기각 할 수 있음(이때 이런 일이 발생할 확률 = 유의확률 = p-value)(귀무가설을 기각하기위한 기준) 귀무가설이 평균 무게 100키로 라고 하면, 표본의 평균 무게도 100키로여야함. 그러나 표본의 평균무게가 30키로 였다면 평균무게가 100키로라는 귀무가설을 기각 할 수 있다는 것임. 두 집단(또는 한집단의 전,후)의 평균에 유의미한 차이가 있는지 (t-test) 두 환자의 간수치는 모두 100이다, a환자는 약을 복용하지 않고 b환자는 약을 복용한다. b환자는 80으로 간수치가 줄..

Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

*** OVER VIEW *** ch 01 ▶ 대표값으로 데이터 분포 파악하기 ch 02 ▶ 이상치 탐지 ch 03 ▶ 두 변수의 상관관계 분석하기 데이터수 평균 중앙값 최빈값 표준편차 표준오차 분산 첨도 왜도 범위 최소값 제1사분위수 중앙값 제3사분위수 최대값 합 관측수 신뢰수준 95% 을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다 1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다. 2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용) ▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 ) ▶ Q3 : 제 3사분위수 : quartile ( 범위 , 3 ) ▶ IQR = Q3 - Q1 ▶Q1-1.5*IQR : 이하를 이상치..

Part 3.ch 03. 회귀분석, 공분산, 상관계수

여러개의 데이터 자료간의 상관성, 관계를 알아보는 시간 ▶ 회귀분석 ▶ 회귀분석을 공부하는 이유: 보통의 경우 결과를 설명하기 위해서 하나의 변수만 영향을 주지는 않음 결과를 종속변수, 종속변수를 설명하기 위한 변수들을 독립변수라고 ▶ 회귀분석이란? 1. 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 2. 대표적인 모형이 선형 회귀 모형 ▶ 회귀분석의 장점 1. 대부분의 경우 결과를 설명하는 요인이 매우 많음 2. 둘 이상의 변수간의 관계를 보여주는 통계적 방법 3. 종속변수에 영향을 미치는 독립변수의 영향력을 판단가능 4. 여러변수의 영향력을 파악가능 ▶ 주의점: 1. 인과관계를 설명해주지는 못한다 ▶ 공분산: 2개의 확률변수(데이터)의 선형관계를 나타내는 값 ▶ 공분산의 부호 1. - ..

Part 3.ch 02. 기술통계

기술통계와 추론통계의 차이점 ▶ 기술통계 : EDA 단계에서 주요하게 사용됨 1. 데이터의 간결한 요약정보 2. 수치적인 통계량 또는 시각화 3. 데이터의 특징을 파악하는 관점 ▶ 추론통계 1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함) 2. 모집단에 대한 추론이 목적 3. 전체 모집단을 조사할 수 없을때 유용 4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정 ▶ 대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치 ▶ 기초통계량 1. 중심경향성: 데이터의 분포의 중심을 보여주는 값 2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지 3. 왜도: 분포의 좌우 비대칭성 정도 4. 첨도: 분포의 뾰족한 정도 ▶ 중심경향성: 중심으로 모이는 경향 중심..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_08

▶ 통계: 일부분으로 전체를 예측하려고 하는 것 ▶ 기술통계학과 추론통계학 1. 기술통계학: 데이터의 특징을 나열 2. 추론 통계학: 가설설정, 모집단 특성 파악 ▶ 귀무가설: 기본적으로 참으로 추정되며 처음부터 버릴것으로 예상되는 가설, A는 B와 같다 ▶ 대립가설: 귀무가설을 기각함을 보이면 참임을 보일 수 있다. 양측검정: 제1형 : A는 B는 아니다 단측점정: 제2,3형 : A가 B보다 작다, A가 B보다 크다. ▶ 가설검정의 기준 P-VALUE: 유의확률: 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치 (=귀무가설과 다른) 와 같거나 더 극단적인 통계치가 관측 확률 T-TEST: 두집단의(또는 한 집단의 전/후) 평균에 통계적으로 유의미한 차이가 있는지 검정 F-검정: 두 집단의..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_07

▶ 날짜 데이터 분리하기 1 B1 → 2030-10-10 =YEAR( B1 ) & "년" → 2030년 =MONTH( B1 ) & "월" → 10월 =DAY( B1 ) & "일" → 10일 ▶ 날짜 데이터 분리하기 2 2030-10-10 형태로 적고 표시형식을 일반 → 날짜로 변경하기 ▶ 날짜 데이터 분리하기 2 CTRL 1 눌러서 표시형식 - 날짜- 에서 YYYY-MM-DD 형식 변경 가능 ▶ 텍스트 나누기 1 / - 영역선택 - 데이터 - 텍스트 나누기 이 방식대로 하게 되면 원본 데이터가 잘림 따라서 원본데이터를 복사해서 열에 붙여넣기후 진행하면 됨! ▶ 텍스트 나누기 2 / 공백 연속된 구분 기호를 하나로 처리: 연속된 띄어쓰기를 1개의 띄어쓰기로 처리함 ▶ 텍스트 합치기 / & = K5 & L5..

728x90