데이터베이스 이해하기
데이터베이스란 업무 처리를 위해 사용자들이 공용으로 사용하기 위해 통합, 저장된 운영 데이터의 집합이다
데이터베이스의 정의
- 통합된 데이터(Integrated Data): 하나의 주제에 따라 중복을 최소화한 데이터
- 저장된 데이터(Stored Data): 언제든지 이용할 수 있도록 저장된 데이터 집합
- 공용 데이터(Shared Data): 여러 사용자가 다수의 응용시스템을 공유하는 데이터
- 운영 데이터(Operational Data): 중복을 최소화하고 여러 사람이 공유함에 있어서 문제가 발생하지 않도록 관리를 필요로 하는 데이터의 집합
데이터베이스의 특징
- 계속적인 변화(Continuous Evolution): 항상 최신의 데이터로 유지
- 동시 공유(Concurrent Sharing): 여러 사용자와 함께 사용
- 실시간 접근(Real-Time Accessibility): 질의에 대한 실시간 처리 응답
- 내용에 의한 참조(Content Reference): 데이터의 내용에 의한 직접 참조 기능
SQL은 DBMS와의 대화에 필요한 언어로, 관계형 데이터베이스 관리 시스템(RDBMS)를 조작한다
SQL 명령의 종류
- DML: 데이터 조작 명령어로, 데이터베이스에 새롭게 데이터를 추가/삭제/갱신 등 데이터를 조작
- DDL: 데이터 정의 명령어로, 데이터베이스 객체를 만들거나 삭제
- DCL: 데이터 제어 명령어로, 트랜잭션 및 데이터 접근 권한을 제어
dplyr은 데이터를 다루는 주요 7가지 동작을 함수로 가지고 추가적 helper 함수를 제공한다
- 열 방향: 선택 - select()
- 열 방향: 계산 - mutate()
- 행 방향: 조건 - filter()
- 행 방향: 추가 - bind_rows()
- 행 방향: 정렬 - arrange()
- 그룹 계산 - group_by() + summarise()
- 열 결합 - left_join()
스타 스키마는 하나의 사실 테이블(Fact Table, 제3정규형)을 중심으로 다수의 차원 테이블(Dimension, 제2정규형)을 구성하는 방식이다
OLAP(Online Analytical Processing)는 최종 사용자가 다차원 정보에 직접 접근하는 기술로서 대화식으로 정보를 분석하고 의사 결정에 활용하는 다차원 분석을 뜻한다
분산데이터베이스(NoSQL)
NoSQL 간단하게 알아보기🔽
인메모리(In-Memory) 데이터베이스
Redis 간단하게 알아보기🔽
'Computer Science > Data Science' 카테고리의 다른 글
[HUFS/빅데이터] #4 데이터 소스, 스크레이핑 (0) | 2022.11.07 |
---|---|
[HUFS/빅데이터] #3 탐색적 데이터 분석, 데이터 시각화 (0) | 2022.09.26 |
[HUFS/빅데이터] #2 데이터 분석 라이브러리 소개 (0) | 2022.09.19 |
[HUFS/빅데이터] #1 빅데이터 개론 (0) | 2022.09.05 |
[데이터사이언스] #11 잠재 디리클레 할당 (0) | 2022.05.17 |