Blair  - Soul Eater [데이터_분석] 자동차 리콜 데이터 분석 (P3)

• program/앨리스_python

[데이터_분석] 자동차 리콜 데이터 분석 (P3)

oujin 2022. 8. 17. 11:39
728x90

프로젝트 목표

한국교통안전공단 자동차 결함 리콜 데이터를 분석하여 유의미한 정보 도출

탐색적 데이터 분석을 수행하기 위한 데이터 정제, 특성 엔지니어링, 시각화 방법 학습

프로젝트 목차

1. 데이터 읽기

자동차 리콜 데이터를 불러오고 Daaframe 구조를 확인

1-1. 데이터 불러오기

2. 데이터 정제

결측치 확인 및 기초적인 데이터 변형

2-1. 결측치 확인

2-2. 중복값 확인

2-3. 기초적인 데이터 변형

3.데이터 시각화

각 변수 별로 추가적인 정제 또는 feature engineering 과정을 거치고 시각화를 통하여 데이터의 특성 파악

3-1. 제조사별 리콜 현황 출력

3-2. 모델별 리콜 현황 출력

3-3. 월별 리콜 현황 출력

3-4. 생산연도별 리콜 현황 출력

3-5. 4분기 제조사별 리콜 현황 출력

3-6. 하반기 생산연도별 리콜 현황 출력

3-7. 워드 클라우드를 이용한 리콜 사유 시각화

데이터 출처

https://www.data.go.kr/data/3048950/fileData.do

 

한국교통안전공단_자동차결함 리콜현황_20211231

자동차의 리콜현황에 대한 데이터로 제작자, 차명, 생산기간(From), 생산기간(To) 리콜사유 등의 항목을 제공합니다.

www.data.go.kr

 

 

프로젝트 개요

1. 데이터 읽기

필요한 패키지 설치 및 import 한 후 pandas를 사용하여 데이터를 읽고 어떠한 데이터가 저장되어있는지 확인합니다.

1-1. 데이터 불러오기

import numpy as np

Import pandas as pd

Import matplotlib.pyplot as plt

!pip install seaborn == 0.9.0

Import seaborn as sns

print (sns._version_)

#missingno라는 라이브러리가 설치되어 있을 경우 import

try:

import missingno a msno

#missingno라는 라이브러리가 설치되어 있지 않을 경우 설치 후 import

except:

!pip install missingno

import missingno as msno

#pd.read_csv를 통하여 dataframe 형태로 읽어옵니다.

df = pd.read_csv("./data/한국교통안전공단_자동차결함 리콜현황_20201231.csv", encoding = "euc-kr")

 

728x90