-
스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 1일차 개발일지개발일지 2021. 9. 22. 21:39
[Week I Learned]
*Notion
https://www.notion.so/1-e7183b041f7f4a17be0d9b27f053d02b
[스파르타코딩클럽] 파이썬 혼자놀기 패키지 - 1일차
강의자료 시작에 PDF파일을 올려두었어요!
www.notion.so
[dload]
파이썬 패키지 파일 'dload' 설치
해당 이미지를 다운받아서 폴더에 추가해줌
import dload
dload.save("이미지 url")[selenium]
파이썬 패키지 파일 'selenium' 설치
브라우저 자동 제어 장치
- 크롬 도움말 > Chrome 정보 > 버전 확인
- https://chromedriver.storage.googleapis.com/index.html?path=85.0.4183.87/
> Parent Directory에서 자기 버전 찾아서 다운 > 해당 파이썬 파일 있는 폴더에 넣기
*시작 코드
from selenium import webdriver
driver = webdriver.Chrome('chromedriver')
driver.get("http://www.naver.com")[크롤링 ;스크래핑]
*크롤링 기본 세팅
from bs4 import BeautifulSoup =>b4s 설치 (브라우저가 보고 있는 것 중에서 내가 원하는 것을 솎아내는 작업)
from selenium import webdriver
import time
driver = webdriver.Chrome('chromedriver') # 웹드라이버 파일의 경로
driver.get("https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=%EC%95%84%EC%9D%B4%EC%9C%A0")
time.sleep(5) # 5초 동안 페이지 로딩 기다리기
req = driver.page_source
# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(req, 'html.parser')
###################################
# 이제 여기에 코딩을 하면 됩니다!
###################################
driver.quit() # 끝나면 닫아주기*이미지 크롤링
thumbnails = soup.select_one('#imgList > div:nth-child(4) > a > img')
print(thumbnails)*img url (src값)만 가져오기
thumbnails = soup.select_one('#imgList > div:nth-child(4) > a > img')['src']
print(thumbnails)*여러 이미지들 크롤링
thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
print(thumbnail)*여러 이미지들 src값만 가져오기
thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
img = thumbnail['src']
print(img)*dload로 이미지 저장하기
상단에 import dload 해주고 IUimg 새폴더 만들기
thumbnails = soup.select('#imgList > div > a > img')
for thumbnail in thumbnails:
img = thumbnail['src']
dload.save(img, 'IUimg/1.jpg') =>img의 내용을 IUimg라는 폴더에 1.jpg 형식으로 저장해라근데, 한 장만 저장할 것도 아니고, 계속 1.jpg일 순 없잖아!
>>>>>
thumbnails = soup.select('#imgList > div > a > img')
i = 1 =>i번째로 지정하겠다. 1부터 시작이다
for thumbnail in thumbnails:
img = thumbnail['src']
dload.save(img,f'IUimg/{i}.jpg') =>폴더명 앞에 f 붙이고 중괄호로 i 감싸주기
i += 1 =>i에서 하나씩 올라가면서 파일명이 붙는다
driver.quit() # 끝나면 닫아주기[숙제]
*크롤링 시작 코드
from bs4 import BeautifulSoup
from selenium import webdriver
import time
driver = webdriver.Chrome('chromedriver')
driver.get("#") # 여기에 URL을 넣어주세요
time.sleep(5)
req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')
###################################
# 이제 여기에 코딩을 하면 됩니다!
###################################
driver.quit() # 끝나면 닫아주기*내 답
import dload
from bs4 import BeautifulSoup
from selenium import webdriver
import time
driver = webdriver.Chrome('chromedriver')
driver.get("https://search.daum.net/search?nil_suggest=sugsch&w=img&DA=GIQ&sq=%EB%B2%A0%EB%84%A4%EB%94%95%ED%8A%B8&o=1&sugo=15&q=%EB%B2%A0%EB%84%A4%EB%94%95%ED%8A%B8+%EC%BB%B4%EB%B2%84%EB%B0%B0%EC%B9%98") # 여기에 URL을 넣어주세요
time.sleep(5)
req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')
cucumbers = soup.select('#imgList > div > a > img')
i = 1
for cucumber in cucumbers:
img = cucumber['src']
dload.save(img, f'Bimg/{i}.jpg')
i += 1
driver.quit() # 끝나면 닫아주기'개발일지' 카테고리의 다른 글
스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 3일차 개발일지 (0) 2021.09.24 스파르타 힙한 취미 코딩 - 파이썬 혼자놀기 패키지 2일차 개발일지 (0) 2021.09.23 21.09.19. 스파르타 내배단 5주차 개발일지 (0) 2021.09.19 21.09.18. 스파르타 내배단 4주차 개발일지 (0) 2021.09.18 21.09.15. 스파르타 내배단 3주차 개발일지 (0) 2021.09.16