Blair  - Soul Eater 오우진
728x90

전체 글 307

1757. Recyclable and Low Fat Products

products 테이블 : +-------------+----------+------------+ | product_id | low_fats | recyclable | +-------------+----------+------------+ | 0 | Y | N | | 1 | Y | Y | | 2 | N | Y | | 3 | Y | Y | | 4 | N | N | +-------------+----------+------------+ Q. low_fats 이면서 recyclable한 상품의 product_id를 출력하시오 +-------------+ | product_id | +-------------+ | 1 | | 3 | +-------------+ A. 데이터 프레임을 & 연산자를 이용해 조건 추출하..

183. Customers Who Never Order

customers 테이블: id, name +----+-------+ | id | name | +----+-------+ | 1 | Joe | | 2 | Henry | | 3 | Sam | | 4 | Max | orders 테이블: id, customerId +----+------------+ | id | customerId | +----+------------+ | 1 | 3 | | 2 | 1 | +----+------------+ Q. 구매하지 않은 고객의 이름을 출력하시오 Output: +-----------+ | Customers | +-----------+ | Henry | | Max | +-----------+ A. ~ isin 을 사용하기 never_o = pd.DataFrame() neve..

Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

*** OVER VIEW *** ch 01 ▶ 대표값으로 데이터 분포 파악하기 ch 02 ▶ 이상치 탐지 ch 03 ▶ 두 변수의 상관관계 분석하기 데이터수 평균 중앙값 최빈값 표준편차 표준오차 분산 첨도 왜도 범위 최소값 제1사분위수 중앙값 제3사분위수 최대값 합 관측수 신뢰수준 95% 을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다 1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다. 2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용) ▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 ) ▶ Q3 : 제 3사분위수 : quartile ( 범위 , 3 ) ▶ IQR = Q3 - Q1 ▶Q1-1.5*IQR : 이하를 이상치..

Part 3.ch 03. 회귀분석, 공분산, 상관계수

여러개의 데이터 자료간의 상관성, 관계를 알아보는 시간 ▶ 회귀분석 ▶ 회귀분석을 공부하는 이유: 보통의 경우 결과를 설명하기 위해서 하나의 변수만 영향을 주지는 않음 결과를 종속변수, 종속변수를 설명하기 위한 변수들을 독립변수라고 ▶ 회귀분석이란? 1. 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 2. 대표적인 모형이 선형 회귀 모형 ▶ 회귀분석의 장점 1. 대부분의 경우 결과를 설명하는 요인이 매우 많음 2. 둘 이상의 변수간의 관계를 보여주는 통계적 방법 3. 종속변수에 영향을 미치는 독립변수의 영향력을 판단가능 4. 여러변수의 영향력을 파악가능 ▶ 주의점: 1. 인과관계를 설명해주지는 못한다 ▶ 공분산: 2개의 확률변수(데이터)의 선형관계를 나타내는 값 ▶ 공분산의 부호 1. - ..

Part 3.ch 02. 기술통계

기술통계와 추론통계의 차이점 ▶ 기술통계 : EDA 단계에서 주요하게 사용됨 1. 데이터의 간결한 요약정보 2. 수치적인 통계량 또는 시각화 3. 데이터의 특징을 파악하는 관점 ▶ 추론통계 1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함) 2. 모집단에 대한 추론이 목적 3. 전체 모집단을 조사할 수 없을때 유용 4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정 ▶ 대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치 ▶ 기초통계량 1. 중심경향성: 데이터의 분포의 중심을 보여주는 값 2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지 3. 왜도: 분포의 좌우 비대칭성 정도 4. 첨도: 분포의 뾰족한 정도 ▶ 중심경향성: 중심으로 모이는 경향 중심..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_08

▶ 통계: 일부분으로 전체를 예측하려고 하는 것 ▶ 기술통계학과 추론통계학 1. 기술통계학: 데이터의 특징을 나열 2. 추론 통계학: 가설설정, 모집단 특성 파악 ▶ 귀무가설: 기본적으로 참으로 추정되며 처음부터 버릴것으로 예상되는 가설, A는 B와 같다 ▶ 대립가설: 귀무가설을 기각함을 보이면 참임을 보일 수 있다. 양측검정: 제1형 : A는 B는 아니다 단측점정: 제2,3형 : A가 B보다 작다, A가 B보다 크다. ▶ 가설검정의 기준 P-VALUE: 유의확률: 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치 (=귀무가설과 다른) 와 같거나 더 극단적인 통계치가 관측 확률 T-TEST: 두집단의(또는 한 집단의 전/후) 평균에 통계적으로 유의미한 차이가 있는지 검정 F-검정: 두 집단의..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_07

▶ 날짜 데이터 분리하기 1 B1 → 2030-10-10 =YEAR( B1 ) & "년" → 2030년 =MONTH( B1 ) & "월" → 10월 =DAY( B1 ) & "일" → 10일 ▶ 날짜 데이터 분리하기 2 2030-10-10 형태로 적고 표시형식을 일반 → 날짜로 변경하기 ▶ 날짜 데이터 분리하기 2 CTRL 1 눌러서 표시형식 - 날짜- 에서 YYYY-MM-DD 형식 변경 가능 ▶ 텍스트 나누기 1 / - 영역선택 - 데이터 - 텍스트 나누기 이 방식대로 하게 되면 원본 데이터가 잘림 따라서 원본데이터를 복사해서 열에 붙여넣기후 진행하면 됨! ▶ 텍스트 나누기 2 / 공백 연속된 구분 기호를 하나로 처리: 연속된 띄어쓰기를 1개의 띄어쓰기로 처리함 ▶ 텍스트 합치기 / & = K5 & L5..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_06

▶ MATCH 함수 하나의 열이나 행을 잡아야 함 =MATCH("찾고싶은 문자" , 하나의 열 또는 행 범위 드래그 , 0) =MATCH("F" , D1:D3 , 0) =MATCH(C11, D1:D3 , 0) ▶ VLOOKUP 함수 =VLOOKUP( 중복된 값이 없는 컬럼에 입력된 셀(기준셀) , 기준셀부터 범위 선택 , 찾고싶은 컬럼의 순서 , 0) =VLOOKUP(A4 , LIST!D:J , 3 , 0) =VLOOKUP(A4 , LIST!D:J , MATCH(C11, D1:D3,0) , 0) ▶ 셀 & 셀 고유값이 없을 경우(=중복값이 있는경우) 행을 합쳐서 고유값을 만든다 =VLOOKUP( B5&C5 , LIST!D:J, 3 , 0) ▶ INDEX 함수 =INDEX(범위 , 범위의 첫 시작으로부터 ..

[패스트캠퍼스] 데이터분석 부트캠프 활용법 특강 후기

패스트캠퍼스 데이터 분석 부트캠프 수료 이후 유명기업에 데이터분석 직군으로 취업한 선배수료생이 들려주는 부트캠프 120% 활용법 특강 부트캠프 기간 동안 공부하고, 프로젝트하고, 성장하는 방법, 취업 노하우와 배운 지식을 실전에서 사용하는 꿀팁, 질의 응답 정규 학습시간이 끝나고 7시부터 8시까지 한시간동안 특강이 진행되었습니다! 패스트캠퍼스 9기를 수료하시고 취업하신 선배님께서 특강해주셨습니다~! 몇달전에 수료하신 분이셔서 더욱 최신 정보를 얻을 수 있어서 좋았습니다! 또한 다양한 꿀팁과 부트캠프를 하면서 준비하면 좋았을 것 같은 점들을 자세하게 말씀해주셔서 이제 부트캠프 시작한지 일주일정도 지난 시점에서 정말 도움이 많이 되었습니다! 1. 부트캠프 꿀팁! ▶ 부트캠프 초기에 부트캠프 수강을 결심한 이..

728x90