Computer Science/Data Science

[HUFS/빅데이터] #3 탐색적 데이터 분석, 데이터 시각화

성중 2022. 9. 26. 16:47

탐색적 데이터 분석(EDA)

 

EDA = 데이터를 분석하기 전, 그래프나 통계적 방법으로 자료를 직관적으로 바라보는 과정

  1. 데이터에 문제가 없는지 전체적으로 살펴보며 확인
  2. head나 tail 부분을 확인, 추가적인 탐색 (이상치, 결측치 등을 확인)
  3. 데이터의 개별 속성 값이 예측한 범위와 분포를 갖는지 확인
  4. 속성 간의 관계에서 개별 속성에서 발견하지 못한 패턴 발견 (상관관계, 시각화)

* 변수에 내재된 변동성(vatiation)과 변수들 간의 공변동(covariation) 파악

 

데이터 속성 / 조합 별 통계 및 시각화 방법

모델은 데이터의 패턴(= 공변동)을 추출하는 도구로, 한 변수의 값으로 다른 변수의 값을 예측/통제하거나 세부 요소들을 탐색할 수 있다

 

모델을 활용해 강한 상관관계를 제거한 값으로 세부 요소들을 탐색

탐색적 데이터 분석 실습🔽

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

Titanic Tutorial with Python

Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster

www.kaggle.com

 

캐글 타이타닉 데이터 분석 및 시각화

안녕하세요. 죠쵸입니다. 오늘부터 본격적으로 Kaggle에서 진행되었던 경진대회의 데이터를 분석해 보고 시각화를 진행해 보도록 하겠습니다. #타이타닉 머신러닝 경진대회 - Competition Overview 가

joecho.tistory.com

 

데이터 시각화

차트 그릴 때, Legend, Title, 축 정보 등 포함
시각화 형태
시각화 형태 정하기
그래픽 문법

ggplot2🔽

 

Create Elegant Data Visualisations Using the Grammar of Graphics

A system for declaratively creating graphics, based on "The Grammar of Graphics". You provide the data, tell ggplot2 how to map variables to aesthetics, what graphical primitives to use, and it takes care of the details.

ggplot2.tidyverse.org

Shiny🔽

 

Shiny

 

shiny.rstudio.com