스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 1일차 개발일지

개발일지 2021. 9. 22. 21:39

[Week I Learned]

*Notion

https://www.notion.so/1-e7183b041f7f4a17be0d9b27f053d02b

[스파르타코딩클럽] 파이썬 혼자놀기 패키지 - 1일차

강의자료 시작에 PDF파일을 올려두었어요!

www.notion.so

[dload]

파이썬 패키지 파일 'dload' 설치

해당 이미지를 다운받아서 폴더에 추가해줌

import dload

dload.save("이미지 url")

[selenium]

파이썬 패키지 파일 'selenium' 설치

브라우저 자동 제어 장치

- 크롬 도움말 > Chrome 정보 > 버전 확인

- https://chromedriver.storage.googleapis.com/index.html?path=85.0.4183.87/

> Parent Directory에서 자기 버전 찾아서 다운 > 해당 파이썬 파일 있는 폴더에 넣기

*시작 코드

from selenium import webdriver
driver = webdriver.Chrome('chromedriver')

driver.get("http://www.naver.com")

[크롤링 ;스크래핑]

*크롤링 기본 세팅

from bs4 import BeautifulSoup =>b4s 설치 (브라우저가 보고 있는 것 중에서 내가 원하는 것을 솎아내는 작업)
from selenium import webdriver
import time

driver = webdriver.Chrome('chromedriver') # 웹드라이버 파일의 경로
driver.get("https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=%EC%95%84%EC%9D%B4%EC%9C%A0")
time.sleep(5) # 5초 동안 페이지 로딩 기다리기

req = driver.page_source
# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(req, 'html.parser')

###################################
# 이제 여기에 코딩을 하면 됩니다!
###################################

driver.quit() # 끝나면 닫아주기

*이미지 크롤링

thumbnails = soup.select_one('#imgList > div:nth-child(4) > a > img')
print(thumbnails)

*img url (src값)만 가져오기

thumbnails = soup.select_one('#imgList > div:nth-child(4) > a > img')['src']
print(thumbnails)

*여러 이미지들 크롤링

thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
print(thumbnail)

*여러 이미지들 src값만 가져오기

thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
img = thumbnail['src']
print(img)

*dload로 이미지 저장하기

상단에 import dload 해주고 IUimg 새폴더 만들기

thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
img = thumbnail['src']
dload.save(img, 'IUimg/1.jpg') =>img의 내용을 IUimg라는 폴더에 1.jpg 형식으로 저장해라

근데, 한 장만 저장할 것도 아니고, 계속 1.jpg일 순 없잖아!

>>>>>

thumbnails = soup.select('#imgList > div > a > img')

i = 1 =>i번째로 지정하겠다. 1부터 시작이다
for thumbnail in thumbnails:
img = thumbnail['src']
dload.save(img,f'IUimg/{i}.jpg') =>폴더명 앞에 f 붙이고 중괄호로 i 감싸주기
i += 1 =>i에서 하나씩 올라가면서 파일명이 붙는다

driver.quit() # 끝나면 닫아주기

[숙제]

*크롤링 시작 코드

from bs4 import BeautifulSoup
from selenium import webdriver
import time

driver = webdriver.Chrome('chromedriver')
driver.get("#") # 여기에 URL을 넣어주세요
time.sleep(5)

req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')

###################################
# 이제 여기에 코딩을 하면 됩니다!
###################################

driver.quit() # 끝나면 닫아주기

*내 답

import dload

from bs4 import BeautifulSoup
from selenium import webdriver
import time

driver = webdriver.Chrome('chromedriver')
driver.get("https://search.daum.net/search?nil_suggest=sugsch&w=img&DA=GIQ&sq=%EB%B2%A0%EB%84%A4%EB%94%95%ED%8A%B8&o=1&sugo=15&q=%EB%B2%A0%EB%84%A4%EB%94%95%ED%8A%B8+%EC%BB%B4%EB%B2%84%EB%B0%B0%EC%B9%98") # 여기에 URL을 넣어주세요
time.sleep(5)

req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')

cucumbers = soup.select('#imgList > div > a > img')

i = 1
for cucumber in cucumbers:
img = cucumber['src']
dload.save(img, f'Bimg/{i}.jpg')
i += 1

driver.quit() # 끝나면 닫아주기

'개발일지' 카테고리의 다른 글

스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 3일차 개발일지 (0)	2021.09.24
스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 2일차 개발일지 (0)	2021.09.23
21.09.19. 스파르타 내배단 5주차 개발일지 (0)	2021.09.19
21.09.18. 스파르타 내배단 4주차 개발일지 (0)	2021.09.18
21.09.15. 스파르타 내배단 3주차 개발일지 (0)	2021.09.16

ABOUT ME

HEily's 코딩 개발일지 HEily's 코딩 개발일지

[Week I Learned]

'개발일지' 카테고리의 다른 글

티스토리툴바

ABOUT ME

[Week I Learned]

'개발일지' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바