Computer Science/Data Science

[HUFS/빅데이터] #5 데이터베이스

성중 2022. 11. 7. 16:35

데이터베이스 이해하기

데이터베이스란 업무 처리를 위해 사용자들이 공용으로 사용하기 위해 통합, 저장된 운영 데이터의 집합이다

 

데이터베이스의 정의

  • 통합된 데이터(Integrated Data): 하나의 주제에 따라 중복을 최소화한 데이터
  • 저장된 데이터(Stored Data): 언제든지 이용할 수 있도록 저장된 데이터 집합
  • 공용 데이터(Shared Data): 여러 사용자가 다수의 응용시스템을 공유하는 데이터
  • 운영 데이터(Operational Data): 중복을 최소화하고 여러 사람이 공유함에 있어서 문제가 발생하지 않도록 관리를 필요로 하는 데이터의 집합

 

데이터베이스의 특징

  • 계속적인 변화(Continuous Evolution): 항상 최신의 데이터로 유지
  • 동시 공유(Concurrent Sharing): 여러 사용자와 함께 사용
  • 실시간 접근(Real-Time Accessibility): 질의에 대한 실시간 처리 응답
  • 내용에 의한 참조(Content Reference): 데이터의 내용에 의한 직접 참조 기능

 

SQL은 DBMS와의 대화에 필요한 언어로, 관계형 데이터베이스 관리 시스템(RDBMS)를 조작한다

 

SQL 명령의 종류

  • DML: 데이터 조작 명령어로, 데이터베이스에 새롭게 데이터를 추가/삭제/갱신 등 데이터를 조작
  • DDL: 데이터 정의 명령어로, 데이터베이스 객체를 만들거나 삭제
  • DCL: 데이터 제어 명령어로, 트랜잭션 및 데이터 접근 권한을 제어

 

dplyr은 데이터를 다루는 주요 7가지 동작을 함수로 가지고 추가적 helper 함수를 제공한다

  • 열 방향: 선택 - select()
  • 열 방향: 계산 - mutate()
  • 행 방향: 조건 - filter()
  • 행 방향: 추가 - bind_rows()
  • 행 방향: 정렬 - arrange()
  • 그룹 계산 - group_by() + summarise()
  • 열 결합 - left_join()

 

R 데이터 분석 패키지 dplyr의 동작
SQL 에 기반을 두고 있어 서로 번역 가능

스타 스키마는 하나의 사실 테이블(Fact Table, 제3정규형)을 중심으로 다수의 차원 테이블(Dimension, 제2정규형)을 구성하는 방식이다

 

스타 스키마

OLAP(Online Analytical Processing)는 최종 사용자가 다차원 정보에 직접 접근하는 기술로서 대화식으로 정보를 분석하고 의사 결정에 활용하는 다차원 분석을 뜻한다

 

OLAP

분산데이터베이스(NoSQL)

NoSQL 간단하게 알아보기🔽

 

NoSQL에 대해서 간단히 알아보자!

CAP이론? NoSQL 소개에는 빠지지 않고 등장하는 그림이다. 이 그림을 약 3~5초정도 보면 다음과 같은 의문이 생기게 된다. “그럼 ACID는?” ACID(원자성, 일관성, 고립성, 지속성)는 데이터베이스 트

embian.wordpress.com

 

인메모리(In-Memory) 데이터베이스

Redis 간단하게 알아보기🔽

 

[DB] Redis란 무엇일까? 간단하게 알아보기!

Redis란 무엇일까? Redis는 Memcached와 비슷한 캐시 시스템으로서 동일한 기능을 제공하면서 영속성, 다양한 데이터 구조와 같은 부가적인 기능을 지원하고 있습니다. 레디스는 모든 데이터를 메모

devlog-wjdrbs96.tistory.com