목록웹크롤링 (6)
DevKim
간단하게 네이버 금융 페이지의 삼성전자 시가총액과 주요 뉴스제목 6개를 스크래핑 해보고, SMB 환율 페이지의 원하는 부분의 데이터를 스크래핑해보자. * 지금까지 실습한 코드들을 하나씩 정리해볼 생각이다. * 이번 코드들은 어렵지 않은 코드들이라 한번에 가져와봤다. 1. 네이버 금융 - 삼성전자 시가총액 스크래핑 url : https://finance.naver.com/item/main.nhn?code=005930 삼성전자 - 네이버 금융 : 네이버 금융 관심종목의 실시간 주가를 가장 빠르게 확인하는 곳 finance.naver.com from selenium import webdriver driver = webdriver.Chrome('chromedriver.exe') type(driver) drive..
본 포스팅은 파이썬3 버전을 기반으로 jupyter notebook을 사용합니다! (코랩이나 idle 사용해도 상관없어요) 오늘은 셀레니움을 이용하여 네이버 자동 로그인 실습을 진행해보겠습니다! ※크롤링은 사이트 특성상 불법으로 간주될 수 있으니 아무사이트에서나 실습을 진행하지않으시는게 좋습니다. 1. 셀레니움(selenium) 설치 -cmd 창에서 pip install selenium 으로 간편하게 설치하고 2.크롬 웹 드라이버(chrome web driver) 설치 1> 밑에 사이트에 접속합니다 https://chromedriver.chromium.org/downloads 2> 크롬 버전을 확인해서 자신의 크롬에 맞는 버전을 다운로드해요 ※크롬 버전은 chrome정보를 들어가면 ..
오늘은 영화리뷰 댓글들을 가져오는 실습을 진행해보겠습니다. https://movie.naver.com/movie/bi/mi/point.nhn?code=136900 저는 어벤져스:엔드게임 으로 실습을 진행하였습니다!! 1) 페이지 소스 코드 살펴보기 이전 포스팅에서 알려준대로 하면 원하는 부분의 소스코드를 쉽게 찾을 수 있어요 소스코드를 보면 div태그안에 li태그가 있고 그 안에 p태그안에 리뷰가 나와있는걸 볼 수 있어요!! *div(class="score_result") > li > p 이 순서만 잘 알아보면 코드는 쉽게 짤 수 있습니다 2) 코드 설명 import requests from bs4 import BeautifulSoup r=requests.get("https://movie.na..
오늘은 네이버 실시간 검색순위를 가져오는 실습을 진행해보겠습니다. 1.라이브러리 import 먼저 저번에 설치한 BeautifulSoup 라이브러리와 requests 라이브러리를 import를 통해 불러와줍니다. * 만약 아래 코드를 실행했는데 아무런 변화도 없다면 성공적으로 설치가 완료된 것입니다 ㅎㅎ 2.실시간 네이버 검색순위 가져오기 코드는 이게 전부입니다. 간단하죠 ?? 코드를 하나하나 설명해보겠습니다. requests.get("주소") :requests 라이브러리를 이용하여 원하는 주소를 가져오는 코드입니다. 저희는 naver의 실시간 검색순위가 필요하니 주소부분에 naver메인창의 주소를 가져오면 됩니다. html= BeautifulSoup(r.content,"html.parser") : 보기..
이번 포스팅에서는 기본 라이브러리인 "Beautifulsoup", "Reqeusts" 설치에 대해 알아보겠습니다. 라이브러리(library) 란 ? -컴퓨터 프로그램에서 자주 사용되는 부분 프로그램들을 모아 놓은 것이다. 쉽게 말해서 어떤 프로그램이 돌아갈 수 있게 하는 도구라고 이해하면 쉬울 것 같다. 그럼 이제 크롤링을 좀 더 손쉽게 할 수 있도록 도움을 주는 라이브러리인"Beautifulsoup", "Reqeusts" 를 설치해보도록 하자 Beautifulsoup : HTML태그 등 사진,글 컨텐츠를 가져온 뒤 사용자가 파싱하기 쉽게 도와주는 라이브러리 Requests : 웹에 있는데이터를 요청하는 라이브러리 cmd 창을 이용하여 쉽게 설치할 수 있다. 윈도우 검색에 cmd라고 치면 나오는 명령 프..
본 포스팅은 파이썬3 버전을 기반으로 jupyter notebook을 사용합니다! 포스팅을 다짐하게된 이유 삼성화재 디지털마케팅교육 실습조교로 일하던때 웹크롤링에 대해 알게되었고 HTML 과 CSS, java script를 이미 배운적이 있는 나에게 파이썬으로 웹크롤링을 하는 과정이 그리 어렵게 느껴지지 않아 공부해보자고 다짐했다!! 웹크롤링은 최근 데이터 분석이 중요시되는 시점에서 비전공자들에게도 유용하다고 느꼈고 다른 코딩보단 비교적 쉽게 느껴져 잘 따라한다면 누구나 할 수 있다. 최대한 HTML 과 CSS를 모르는 초보자들을 위해 정말 기본적인것부터 차근차근 포스팅 해보려고한다 ㅎㅎ ※ 포스팅이 느릴수도있음.. 1> 웹 크롤링이란 ? - 인터넷 상에 있는 많은 자료(실시간 검색어,기사 댓글 등등)를..