Blair  - Soul Eater '분류 전체보기' 카테고리의 글 목록 (12 Page)
728x90

분류 전체보기 318

[프로그래머스_SQL] 오프라인/온라인 판매 데이터 통합하기

with sale as(select SALES_DATE,PRODUCT_ID,USER_ID,SALES_AMOUNT from ONLINE_SALE union all select SALES_DATE,PRODUCT_ID,null USER_ID,SALES_AMOUNT from OFFLINE_SALE ) select date_format(SALES_DATE,'%Y-%m-%d'),PRODUCT_ID,USER_ID,SALES_AMOUNT from sale where SALES_DATE like "2022-03%" order by SALES_DATE,PRODUCT_ID,USER_ID ▶ 임시 테이블 만들기 with 구문을 사용하여 sale 이라는 임테이블을 만든다. 이 sale 이라는 테이블은 ONLINE_SALE 테이..

1757. Recyclable and Low Fat Products

products 테이블 : +-------------+----------+------------+ | product_id | low_fats | recyclable | +-------------+----------+------------+ | 0 | Y | N | | 1 | Y | Y | | 2 | N | Y | | 3 | Y | Y | | 4 | N | N | +-------------+----------+------------+ Q. low_fats 이면서 recyclable한 상품의 product_id를 출력하시오 +-------------+ | product_id | +-------------+ | 1 | | 3 | +-------------+ A. 데이터 프레임을 & 연산자를 이용해 조건 추출하..

183. Customers Who Never Order

customers 테이블: id, name +----+-------+ | id | name | +----+-------+ | 1 | Joe | | 2 | Henry | | 3 | Sam | | 4 | Max | orders 테이블: id, customerId +----+------------+ | id | customerId | +----+------------+ | 1 | 3 | | 2 | 1 | +----+------------+ Q. 구매하지 않은 고객의 이름을 출력하시오 Output: +-----------+ | Customers | +-----------+ | Henry | | Max | +-----------+ A. ~ isin 을 사용하기 never_o = pd.DataFrame() neve..

Part 4.ch 01~2. 대표값으로 데이터 분포 파악하기, 이상치 탐지

*** OVER VIEW *** ch 01 ▶ 대표값으로 데이터 분포 파악하기 ch 02 ▶ 이상치 탐지 ch 03 ▶ 두 변수의 상관관계 분석하기 데이터수 평균 중앙값 최빈값 표준편차 표준오차 분산 첨도 왜도 범위 최소값 제1사분위수 중앙값 제3사분위수 최대값 합 관측수 신뢰수준 95% 을 이용하여 데이터의 전체적인 분포를 확인 할 수 있다 1. ▶ 데이터를 내림하여 묶고 피벗차트를 활용해 데이터의 분포를 추론 할 수 있다. 2. ▶ IQR 을 활용한 이상치 탐지 (데이터가 한쪽으로 쏠려있는 경우에 유용) ▶ Q1 : 제 1사분위수 : quartile ( 범위 , 1 ) ▶ Q3 : 제 3사분위수 : quartile ( 범위 , 3 ) ▶ IQR = Q3 - Q1 ▶Q1-1.5*IQR : 이하를 이상치..

Part 3.ch 03. 회귀분석, 공분산, 상관계수

여러개의 데이터 자료간의 상관성, 관계를 알아보는 시간 ▶ 회귀분석 ▶ 회귀분석을 공부하는 이유: 보통의 경우 결과를 설명하기 위해서 하나의 변수만 영향을 주지는 않음 결과를 종속변수, 종속변수를 설명하기 위한 변수들을 독립변수라고 ▶ 회귀분석이란? 1. 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 2. 대표적인 모형이 선형 회귀 모형 ▶ 회귀분석의 장점 1. 대부분의 경우 결과를 설명하는 요인이 매우 많음 2. 둘 이상의 변수간의 관계를 보여주는 통계적 방법 3. 종속변수에 영향을 미치는 독립변수의 영향력을 판단가능 4. 여러변수의 영향력을 파악가능 ▶ 주의점: 1. 인과관계를 설명해주지는 못한다 ▶ 공분산: 2개의 확률변수(데이터)의 선형관계를 나타내는 값 ▶ 공분산의 부호 1. - ..

Part 3.ch 02. 기술통계

기술통계와 추론통계의 차이점 ▶ 기술통계 : EDA 단계에서 주요하게 사용됨 1. 데이터의 간결한 요약정보 2. 수치적인 통계량 또는 시각화 3. 데이터의 특징을 파악하는 관점 ▶ 추론통계 1. 모집단으로부터 추출한 샘플을 사용 (샘플은 모집단을 대표해야함) 2. 모집단에 대한 추론이 목적 3. 전체 모집단을 조사할 수 없을때 유용 4. p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정 ▶ 대표값: 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치 ▶ 기초통계량 1. 중심경향성: 데이터의 분포의 중심을 보여주는 값 2. 퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지 3. 왜도: 분포의 좌우 비대칭성 정도 4. 첨도: 분포의 뾰족한 정도 ▶ 중심경향성: 중심으로 모이는 경향 중심..

2. 데이터 분석을 위한 기초 수학/통계(이동훈 강사님)_08

▶ 통계: 일부분으로 전체를 예측하려고 하는 것 ▶ 기술통계학과 추론통계학 1. 기술통계학: 데이터의 특징을 나열 2. 추론 통계학: 가설설정, 모집단 특성 파악 ▶ 귀무가설: 기본적으로 참으로 추정되며 처음부터 버릴것으로 예상되는 가설, A는 B와 같다 ▶ 대립가설: 귀무가설을 기각함을 보이면 참임을 보일 수 있다. 양측검정: 제1형 : A는 B는 아니다 단측점정: 제2,3형 : A가 B보다 작다, A가 B보다 크다. ▶ 가설검정의 기준 P-VALUE: 유의확률: 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치 (=귀무가설과 다른) 와 같거나 더 극단적인 통계치가 관측 확률 T-TEST: 두집단의(또는 한 집단의 전/후) 평균에 통계적으로 유의미한 차이가 있는지 검정 F-검정: 두 집단의..

728x90