Computer Science/Data Science 26

[HUFS/빅데이터] #5 데이터베이스

데이터베이스 이해하기 데이터베이스란 업무 처리를 위해 사용자들이 공용으로 사용하기 위해 통합, 저장된 운영 데이터의 집합이다 데이터베이스의 정의 통합된 데이터(Integrated Data): 하나의 주제에 따라 중복을 최소화한 데이터 저장된 데이터(Stored Data): 언제든지 이용할 수 있도록 저장된 데이터 집합 공용 데이터(Shared Data): 여러 사용자가 다수의 응용시스템을 공유하는 데이터 운영 데이터(Operational Data): 중복을 최소화하고 여러 사람이 공유함에 있어서 문제가 발생하지 않도록 관리를 필요로 하는 데이터의 집합 데이터베이스의 특징 계속적인 변화(Continuous Evolution): 항상 최신의 데이터로 유지 동시 공유(Concurrent Sharing): 여러..

[HUFS/빅데이터] #4 데이터 소스, 스크레이핑

데이터 포맷 설명 및 비교🔽 데이터 포맷 설명 및 비교 (XML, JSON, CSV) 각 포맷 장단점 및 비교 데이터 크기 : XML > JSON > CSV XML JSON CSV 장점 ‣ XML은 3가지 포맷중 가장 직관적이다. ‣ 메타 정보를 제공해서 정보 표현 이상의 효과를 가져올 수 있다. ‣ 모양과 규칙 자 loosie.tistory.com 크롤링(Crawling): 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술로, 검색 엔진을 구현할 때 사용하는 크롤러는 웹 사이트의 링크를 타고 돌며 웹 사이트를 돌아다닌다 스크레이핑(Scraping): 웹 사이트에 있는 특정 정보를 추출하는 기술을 의미한다 BeautifulSoup로 스크레이핑하기🔽 파이썬 웹 크롤링 기초 (BeautifulSo..

[HUFS/빅데이터] #3 탐색적 데이터 분석, 데이터 시각화

탐색적 데이터 분석(EDA) EDA = 데이터를 분석하기 전, 그래프나 통계적 방법으로 자료를 직관적으로 바라보는 과정 데이터에 문제가 없는지 전체적으로 살펴보며 확인 head나 tail 부분을 확인, 추가적인 탐색 (이상치, 결측치 등을 확인) 데이터의 개별 속성 값이 예측한 범위와 분포를 갖는지 확인 속성 간의 관계에서 개별 속성에서 발견하지 못한 패턴 발견 (상관관계, 시각화) * 변수에 내재된 변동성(vatiation)과 변수들 간의 공변동(covariation) 파악 모델은 데이터의 패턴(= 공변동)을 추출하는 도구로, 한 변수의 값으로 다른 변수의 값을 예측/통제하거나 세부 요소들을 탐색할 수 있다 탐색적 데이터 분석 실습🔽 Titanic - Machine Learning from Disast..