목록데이터 수집 [ Web crawling ] (12)
DevKim
밑에 코드를 정상적으로 실행하기 위해, 별도의 data 폴더와 base path가 설정되어있어야한다. 사실상 네이버 뉴스의 모든 뉴스를 크롤링하기엔 불가능하다. 왜냐하면 네이버 뉴스를 클릭해보면 알겠지만, 연합뉴스,한국뉴스...등등 모두 다른 회사에서 만든 뉴스기사임을 볼 수 있다. 그렇다고 모~~든 회사에서 만든 다른 web 의 태깅들을 따로따로 입력할 수도 없는 노릇이다. 그래서 해결방안은 naver 뉴스에 연결되어있는 애들만 크롤링하는 방법이다. 검색어와, 뉴스가 발행된 날짜, 크롤링 할 페이지를 입력하면 자동으로 엑셀파일에 저장되게끔 코드가 짜여져있다 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import panda..
이번엔 다음 금융 페이지의 삼성전자의 일봉 데이터를 가져와보겠습니다. import requests from bs4 import BeautifulSoup url='https://finance.daum.net/api/charts/A005930/days?limit=200&adjusted=true' params={ 'limit': '200', 'adjusted': 'true' } headers={ 'accept': 'application/json, text/plain, */*', 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7', 'cache-control': 'no-cache', 'coo..
※카카오 번역 페이지에 한글로 '사랑합니다'를 입력하면 영어로 번역되는 결과값을 가져와보겠습니다. 1. 번역하기 '사랑합니다' 를 번역하기위해 data 정보를 다음과 같이 작성하여 전달합니다 url="https://translate.kakao.com/translator/translate.json" data={ 'queryLanguage': 'auto', 'resultLanguage':'en', 'q': '사랑합니다' } headers={ 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7', 'Connection': 'keep-alive', 'Content..
url: https://shoppinghow.kakao.com/siso/p/hotdeal/list/ 대한민국 최저가 가격비교 쇼핑! 쇼핑하우 by kakaocommerce 쇼핑하우 by kakaocommerce는 대한민국 온라인 쇼핑몰들의 상품 정보를 모두 모아 한번에 가격비교가 가능한, 최저가 가격비교 서비스 입니다. shoppinghow.kakao.com * 핫딜은 매 시간 정보가 변경되는 동적 페이지임을 고려해야한다. 따라서 네트워크 탭에서 검색해서 찾고싶은 키워드를 검색하여 해당 network 정보를 따로 알아야한다. import requests from bs4 import BeautifulSoup url=' https://shoppinghow.kakao.com/siso/p/api/hotdeal/..
url : http://comp.fnguide.com/
* 코드에는 문제가 없는데 크롤링이 안되거나 빈 문자열로 나온다면 html 태그 부분을 자세히 한번 다시 보면 답이 나오는 경우가있다!! # 수집하고자하는 데이터가 iframe 태그 안에 묶여있을 때 -> iframe 페이지로 우선 이동해줘야한다. url: https://finance.naver.com/marketindex/?tabSel=exchange#tab_section https://finance.naver.com/marketindex/?tabSel=exchange#tab_section 환전 고시 환율 2020.09.07 19:46 하나은행 기준 고시회차 169회 finance.naver.com from selenium import webdriver driver=webdriver.Chrome('ch..
간단하게 네이버 금융 페이지의 삼성전자 시가총액과 주요 뉴스제목 6개를 스크래핑 해보고, SMB 환율 페이지의 원하는 부분의 데이터를 스크래핑해보자. * 지금까지 실습한 코드들을 하나씩 정리해볼 생각이다. * 이번 코드들은 어렵지 않은 코드들이라 한번에 가져와봤다. 1. 네이버 금융 - 삼성전자 시가총액 스크래핑 url : https://finance.naver.com/item/main.nhn?code=005930 삼성전자 - 네이버 금융 : 네이버 금융 관심종목의 실시간 주가를 가장 빠르게 확인하는 곳 finance.naver.com from selenium import webdriver driver = webdriver.Chrome('chromedriver.exe') type(driver) drive..
본 포스팅은 파이썬3 버전을 기반으로 jupyter notebook을 사용합니다! (코랩이나 idle 사용해도 상관없어요) 오늘은 셀레니움을 이용하여 네이버 자동 로그인 실습을 진행해보겠습니다! ※크롤링은 사이트 특성상 불법으로 간주될 수 있으니 아무사이트에서나 실습을 진행하지않으시는게 좋습니다. 1. 셀레니움(selenium) 설치 -cmd 창에서 pip install selenium 으로 간편하게 설치하고 2.크롬 웹 드라이버(chrome web driver) 설치 1> 밑에 사이트에 접속합니다 https://chromedriver.chromium.org/downloads 2> 크롬 버전을 확인해서 자신의 크롬에 맞는 버전을 다운로드해요 ※크롬 버전은 chrome정보를 들어가면 ..