목록크롤링 (5)
DevKim

🏃 Webtooniverse 의 핵심인 웹툰 데이터를 수집해보자 🏃 [ MySql 이 아닌, Maria DB를 선택한 이유 ] - 평소같았으면 편하고 익숙한 Mysql을 골랐을 테지만, 'Mysql에서 Maria DB로 마이그에리션 해야 할 10가지 이유'라는 글을 읽고 이번 기회에 MariaDB를 선택해서 프로젝트를 진행해보고 싶었다. 사실 Maria DB가 Mysql보다 더 나은 성능을 제공한다고는하지만, 이번 프로젝트 자체가 두개의 성능을 확연하게 비교할 수 있을 만큼의 큰 프로젝트는 아니기에 큰 차이가 없을 것 같긴하다. [ 필요한 데이터 ] 1. 요일별 웹툰 - 웹툰 관련 서비스에는 지금 연재되고 있는 웹툰이 필수적이기에, 가장 먼저 요일별 웹툰을 DB에 저장하기로했다. 요일별 웹툰만 400개가..

url: https://shoppinghow.kakao.com/siso/p/hotdeal/list/ 대한민국 최저가 가격비교 쇼핑! 쇼핑하우 by kakaocommerce 쇼핑하우 by kakaocommerce는 대한민국 온라인 쇼핑몰들의 상품 정보를 모두 모아 한번에 가격비교가 가능한, 최저가 가격비교 서비스 입니다. shoppinghow.kakao.com * 핫딜은 매 시간 정보가 변경되는 동적 페이지임을 고려해야한다. 따라서 네트워크 탭에서 검색해서 찾고싶은 키워드를 검색하여 해당 network 정보를 따로 알아야한다. import requests from bs4 import BeautifulSoup url=' https://shoppinghow.kakao.com/siso/p/api/hotdeal/..

본 포스팅은 파이썬3 버전을 기반으로 jupyter notebook을 사용합니다! (코랩이나 idle 사용해도 상관없어요) 오늘은 셀레니움을 이용하여 네이버 자동 로그인 실습을 진행해보겠습니다! ※크롤링은 사이트 특성상 불법으로 간주될 수 있으니 아무사이트에서나 실습을 진행하지않으시는게 좋습니다. 1. 셀레니움(selenium) 설치 -cmd 창에서 pip install selenium 으로 간편하게 설치하고 2.크롬 웹 드라이버(chrome web driver) 설치 1> 밑에 사이트에 접속합니다 https://chromedriver.chromium.org/downloads 2> 크롬 버전을 확인해서 자신의 크롬에 맞는 버전을 다운로드해요 ※크롬 버전은 chrome정보를 들어가면 ..

오늘은 영화리뷰 댓글들을 가져오는 실습을 진행해보겠습니다. https://movie.naver.com/movie/bi/mi/point.nhn?code=136900 저는 어벤져스:엔드게임 으로 실습을 진행하였습니다!! 1) 페이지 소스 코드 살펴보기 이전 포스팅에서 알려준대로 하면 원하는 부분의 소스코드를 쉽게 찾을 수 있어요 소스코드를 보면 div태그안에 li태그가 있고 그 안에 p태그안에 리뷰가 나와있는걸 볼 수 있어요!! *div(class="score_result") > li > p 이 순서만 잘 알아보면 코드는 쉽게 짤 수 있습니다 2) 코드 설명 import requests from bs4 import BeautifulSoup r=requests.get("https://movie.na..

이번 포스팅에서는 기본 라이브러리인 "Beautifulsoup", "Reqeusts" 설치에 대해 알아보겠습니다. 라이브러리(library) 란 ? -컴퓨터 프로그램에서 자주 사용되는 부분 프로그램들을 모아 놓은 것이다. 쉽게 말해서 어떤 프로그램이 돌아갈 수 있게 하는 도구라고 이해하면 쉬울 것 같다. 그럼 이제 크롤링을 좀 더 손쉽게 할 수 있도록 도움을 주는 라이브러리인"Beautifulsoup", "Reqeusts" 를 설치해보도록 하자 Beautifulsoup : HTML태그 등 사진,글 컨텐츠를 가져온 뒤 사용자가 파싱하기 쉽게 도와주는 라이브러리 Requests : 웹에 있는데이터를 요청하는 라이브러리 cmd 창을 이용하여 쉽게 설치할 수 있다. 윈도우 검색에 cmd라고 치면 나오는 명령 프..