Blair  - Soul Eater '• 패스트캠퍼스 데이터분석 부트캠프 12기/Excel' 카테고리의 글 목록
728x90

• 패스트캠퍼스 데이터분석 부트캠프 12기/Excel 15

Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

*** OVER VIEW *** ch 01 ▶ 대표값으로 데이터 분포 파악하기 ch 02 ▶ 이상치 탐지 ch 03 ▶ 두 변수의 상관관계 분석하기 데이터수 평균 중앙값 최빈값 표준편차 표준오차 분산 첨도 왜도 범위 최소값 제1사분위수 중앙값 제3사분위수 최대값 합 관측수 신뢰수준 95% 을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다 1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다. 2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용) ▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 ) ▶ Q3 : 제 3사분위수 : quartile ( 범위 , 3 ) ▶ IQR = Q3 - Q1 ▶Q1-1.5*IQR : 이하를 이상치..

Part 3.ch 03. 회귀분석, 공분산, 상관계수

여러개의 데이터 자료간의 상관성, 관계를 알아보는 시간 ▶ 회귀분석 ▶ 회귀분석을 공부하는 이유: 보통의 경우 결과를 설명하기 위해서 하나의 변수만 영향을 주지는 않음 결과를 종속변수, 종속변수를 설명하기 위한 변수들을 독립변수라고 ▶ 회귀분석이란? 1. 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 2. 대표적인 모형이 선형 회귀 모형 ▶ 회귀분석의 장점 1. 대부분의 경우 결과를 설명하는 요인이 매우 많음 2. 둘 이상의 변수간의 관계를 보여주는 통계적 방법 3. 종속변수에 영향을 미치는 독립변수의 영향력을 판단가능 4. 여러변수의 영향력을 파악가능 ▶ 주의점: 1. 인과관계를 설명해주지는 못한다 ▶ 공분산: 2개의 확률변수(데이터)의 선형관계를 나타내는 값 ▶ 공분산의 부호 1. - ..

Part 3.ch 02. 기술통계

기술통계와 추론통계의 차이점 ▶ 기술통계 : EDA 단계에서 주요하게 사용됨 1. 데이터의 간결한 요약정보 2. 수치적인 통계량 또는 시각화 3. 데이터의 특징을 파악하는 관점 ▶ 추론통계 1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함) 2. 모집단에 대한 추론이 목적 3. 전체 모집단을 조사할 수 없을때 유용 4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정 ▶ 대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치 ▶ 기초통계량 1. 중심경향성: 데이터의 분포의 중심을 보여주는 값 2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지 3. 왜도: 분포의 좌우 비대칭성 정도 4. 첨도: 분포의 뾰족한 정도 ▶ 중심경향성: 중심으로 모이는 경향 중심..

Part 3.ch 01. 왕초보 고등학교 기초통계

***OVER VIEW*** 1. 고등학교 기초통계 변량, 도수, 상대도수, 도수분포표, 히스토그램 평균, 분산, 표준편차 개념 (도수 있는 경우와 없는 경우) 통계에 확률변수, 확률분포가 등장하는 이유 연속형 확률분포와 이산형 확률분포 확률분포표, 확률밀도함수 정규분포, 표준정규분포, 표준화 모집단, 표본, 모평균, 표본평균, 모분산, 표본분산 추정, 신뢰도, 신뢰구간 2. 기술통계 기술통계와 추론통계의 차이점 대표값과 기초통계량 기초통계량(1) - 중심경향성 기초통계량(2) - 퍼짐정도 기초통계량(3) - 왜도,첨도 3. 회귀분석, 공분산, 상관계수 회귀분석을 공부하는 이유 공분산 기본 개념 상관계수 기본 개념 ● 변량: 자료의 수치, 즉 데이터의 값의 의미 ● 계급: 변량을 일정한 간격으로 나눈 구..

Part 2.ch 03. 차트로 엑셀 데이터 쉽게 탐색하기

***엑셀로 히스토그램 그리기*** 궁금증1. 성별에 따라서 생존률이 다를까? 성별에 따라 생존율을 구해야 하는데 어떻게 구해야 할까? 삽입-피벗테이블 성별과 생존 컬럼을 추가 캅-합계-값필드 설정 평균으로 설정시 궁금증2. PCLASS에 따라서 생존율이 다를까? PCALSS에 따라서 생존율을 구해야 하는데 어떻게? 궁금증3. 성별과 PCLASS에 따른 생존율 홈-일반 대신에 백분율로 선택시 깔끔하게 정돈된 숫자로 볼 수 있다. 궁금증4. 성별, PCLASS 각각에 따른 생존율 시각화 우클릭 필드 목록 표시 궁금증5. 탑승한 항수에 따라서 PCLASS가 많이 다를까? ***엑셀로 산점도 그리기*** 상관관계분석하기 ***엑셀로 박스플롯 그리기*** 데이터의 필터로 헤더에 필터 적용하 하고자 하는것: pc..

Part 2.ch 02. 데이터 탐색과 통계 필요성

● 기술통계 -요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색 -관측된 데이터의 특성을 파악하는 좋은 수단 ● 추론통계 -추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론 -P-VALUE등을 활용하여 추론의 신뢰도 확보 ● 적절한 통계기법 활용하기 ● 데이터로부터 올바른 정보를 얻기 ● 즉 통계공부란 수치로부터 정보를 추출하기 위한 수단 ● 기술통계법: 평균, 분산,표준편차, 왜도,첨도 등 통계량 확인 ● 데이터 시각화: 차트를 통한 분포 확인 ● 상관 관계 분석: 각 변수 간의 비례관계 ● 결측치, 이상치 탐지: 관측되지 않거나 추세에서 벗어난 데이터 확인 ●데이터 탐색 과정의 목적: * 어떤 변수가 결론에 많은 영향을 미치는지 확인 1. 유의미한 변수 탐색 2. 변수..

Part 2.ch 01. 데이터 탐색 사례

***OVER VIEW*** 데이터 탐색 사례에서 어떤 대표값을 바탕으로 데이터를 탐색하는지 알기 EDA를 통한 변수의 특징 파악 다양한 통계기법을 파악해 변수가 정규성을 가지는지 파악 어떤경우에 어떤 통계기법을 사용하는지 차트로 데이터 시각화 ● 대표값을 통한 데이터 탐색 -수집된 데이터로부터 통계량을 측정 -통계량을 통해 집단의 특성을 파악 ● 기술통계 -테크니컬의 기술이 아니라 적다의 기술임 -각각의 세부항목에 대해서는 PART 3에서 자세히 다룸 ● 기술통계법을 이용한 수치 요약 ● 엑셀 내장함수를 통한 수치요약 ● 엑셀 피벗차트를 이용한 시각화 ● 파이썬에서의 기술통계 및 시각화 ●차트로 데이터 탐색 사례 -좌석, 생존에 따른 연령 분포 등 ●분포를 확인 할 때 함께 확인해야하는 수치 -분포의 ..

Part 1.ch 03. 데이터 실습을 위한 엑셀 예제 csv 파일 찾기(Kaggle)

●케글에서 타이타닉 데이터 다운받기 https://www.kaggle.com/competitions/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 다운받은 CSV파일을 다른이름으로 저장하기 하여 통합된 엑셀 확장자로 XLSL 변경해주면 더욱 편함! 파일 옵션 추가기능 이동 분석도구팩으로 기능을 추가해주면 데이터 탭에 데이터 분석툴이 생긴다! 데이터분석-기술통계법 들어가서 숫자만 있는 연속된 열의 데이터를 선택해주고 첫째행 이름표 사용 체크 나머지는 보고 싶은 것 체크하면 이렇게 요약 통계를 볼 수 있다 ●공분산 분석 ●상관관계 분석 데이터의 상관행렬이 더 균일해짐

Part 1.ch 02. 데이터 분석과정과 탐색적 데이터 분석(EDA)

● 데이터분석 단계 1. 분석 기획 2. 수집 및 정제 3. 모델링 4. 평가 및 결론 도출 5. 분석결과의 활용 ● 데이터 분석 기획 -비즈니스 이해 및 목표설정: 비즈니스적으로 어떤것을 이루고자 하는지 -프로젝트 정의: 어떤데이터를 바탕으로 어떤것을 예측,측정할 것인지 ●데이터 수집 및 정제 -분석에 필요한 데이터를 어떻게 수집할 것인지 -데이터 전처리,검증:수집된 데이터의 정합성,무결성 등을 검증 ● 데이터 분석 모델링 -탐색적 데이터 분석 (EDA): 통계량 확인 및 시각화를 통한 데이터의 특성을 파악 -모델링: 예측을 위한 수학적, 통계적 모델링 ● 평가 및 결론도출 -모델링을 통해 생성된 결과를 활용해 결론 도출 -성능에 대한 평가: 도메인에 따라 비즈니스적 요구에 따라 성능의 기준은 달라짐,..

728x90