데이터 포맷 설명 및 비교🔽
데이터 포맷 설명 및 비교 (XML, JSON, CSV)
각 포맷 장단점 및 비교 데이터 크기 : XML > JSON > CSV XML JSON CSV 장점 ‣ XML은 3가지 포맷중 가장 직관적이다. ‣ 메타 정보를 제공해서 정보 표현 이상의 효과를 가져올 수 있다. ‣ 모양과 규칙 자
loosie.tistory.com
- 크롤링(Crawling): 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술로, 검색 엔진을 구현할 때 사용하는 크롤러는 웹 사이트의 링크를 타고 돌며 웹 사이트를 돌아다닌다
- 스크레이핑(Scraping): 웹 사이트에 있는 특정 정보를 추출하는 기술을 의미한다
BeautifulSoup로 스크레이핑하기🔽
파이썬 웹 크롤링 기초 (BeautifulSoup 사용 방법) - 아무튼 워라밸
본 포스팅에서는 파이썬으로 누구나(?) 따라할 수 있는 웹 크롤링 방법을 소개한다.
hleecaster.com
쿠키(Cookie)는 사용자 식별 및 세션 유지를 통해 클라이언트와 서버 상태를 관리하는, 현재 가장 많이 사용되고 있는 인증 방식이다. 지속 쿠키와 세션 쿠키가 있으며 일반적으로 말하는 쿠키는 지속 쿠키이고 세션은 세션 쿠키이다
로그인이 필요한 사이트에서 스크레이핑🔽
5. 로그인이 필요한 사이트에서의 크롤링
파이썬을 이용한 머신러닝, 딥러닝 실전개발 입문
yeo0.github.io
Selenium으로 크롤링하기🔽
셀레니움 크롤러 기본 사용법 - 뻥뚫리는 파이썬 코드 모음
셀레니움 전반에 관하여 간략하게 정리한다. 이 문서는 셀레니움 버전 3 기준이다. 최근 4버전이 출시되었으나 사용방법이 약간 다르니 이 부분을 확인하길 바란다. 사용 방법이나 예시는 따로
pythondocs.net
정규 표현식🔽
정규 표현식 - JavaScript | MDN
정규 표현식, 또는 정규식은 문자열에서 특정 문자 조합을 찾기 위한 패턴입니다. JavaScript에서는 정규 표현식도 객체로서, RegExp의 exec()와 test() 메서드를 사용할 수 있습니다. String의 match(), matchA
developer.mozilla.org
'Computer Science > Data Science' 카테고리의 다른 글
[HUFS/빅데이터] #5 데이터베이스 (0) | 2022.11.07 |
---|---|
[HUFS/빅데이터] #3 탐색적 데이터 분석, 데이터 시각화 (0) | 2022.09.26 |
[HUFS/빅데이터] #2 데이터 분석 라이브러리 소개 (0) | 2022.09.19 |
[HUFS/빅데이터] #1 빅데이터 개론 (0) | 2022.09.05 |
[데이터사이언스] #11 잠재 디리클레 할당 (0) | 2022.05.17 |