Computer Science/Data Science

[HUFS/빅데이터] #4 데이터 소스, 스크레이핑

성중 2022. 11. 7. 12:26

컴퓨터와 사람 모두 이해하기 쉬운 포맷 (CSV, JSON, XML)

데이터 포맷 설명 및 비교🔽

 

데이터 포맷 설명 및 비교 (XML, JSON, CSV)

각 포맷 장단점 및 비교 데이터 크기 : XML > JSON > CSV XML JSON CSV 장점 ‣ XML은 3가지 포맷중 가장 직관적이다. ‣ 메타 정보를 제공해서 정보 표현 이상의 효과를 가져올 수 있다. ‣ 모양과 규칙 자

loosie.tistory.com

 

  • 크롤링(Crawling): 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술로, 검색 엔진을 구현할 때 사용하는 크롤러는 웹 사이트의 링크를 타고 돌며 웹 사이트를 돌아다닌다
  • 스크레이핑(Scraping): 웹 사이트에 있는 특정 정보를 추출하는 기술을 의미한다

 

BeautifulSoup로 스크레이핑하기🔽

 

파이썬 웹 크롤링 기초 (BeautifulSoup 사용 방법) - 아무튼 워라밸

본 포스팅에서는 파이썬으로 누구나(?) 따라할 수 있는 웹 크롤링 방법을 소개한다.

hleecaster.com

 

쿠키(Cookie)는 사용자 식별 및 세션 유지를 통해 클라이언트와 서버 상태를 관리하는, 현재 가장 많이 사용되고 있는 인증 방식이다. 지속 쿠키와 세션 쿠키가 있으며 일반적으로 말하는 쿠키는 지속 쿠키이고 세션은 세션 쿠키이다

 

세션과 쿠키

로그인이 필요한 사이트에서 스크레이핑🔽

 

5. 로그인이 필요한 사이트에서의 크롤링

파이썬을 이용한 머신러닝, 딥러닝 실전개발 입문

yeo0.github.io

 

Selenium으로 크롤링하기🔽

 

셀레니움 크롤러 기본 사용법 - 뻥뚫리는 파이썬 코드 모음

셀레니움 전반에 관하여 간략하게 정리한다. 이 문서는 셀레니움 버전 3 기준이다. 최근 4버전이 출시되었으나 사용방법이 약간 다르니 이 부분을 확인하길 바란다. 사용 방법이나 예시는 따로

pythondocs.net

 

정규 표현식🔽

 

정규 표현식 - JavaScript | MDN

정규 표현식, 또는 정규식은 문자열에서 특정 문자 조합을 찾기 위한 패턴입니다. JavaScript에서는 정규 표현식도 객체로서, RegExp의 exec()와 test() 메서드를 사용할 수 있습니다. String의 match(), matchA

developer.mozilla.org