본문 바로가기

분류 전체보기50

AI 컴퓨터 비전 프로젝트_2개월차_(크롤링 :: 1개의 이미지, 대량 이미지수집) 픽사베이 (https://pixabay.com/ko/)를 이용한 한개의 이미지 수집, 여러이미지 수집에 대해서 크롤링해보려고합니다. #임포트+타임+셀레니움import chromedriver_autoinstallerimport timefrom selenium import webdriver 가장먼저 url확인을 해주려고합니다. 강아지사진을 선택하려고하고 그 부분에 대한 url을 가져왔더니 아래와 같습니다.고양이로 하고싶다면 강아지를 고양이로 변경하면 됩니다!  #크롬웹브라우저를통해 강아지가 검색된 url가져오기driver = webdriver.Chrome()url = 'https://pixabay.com/ko/images/search/강아지/'driver.get(url)#원하는 이미지의 xpath+이미지ur.. 2024. 5. 31.
AI 컴퓨터 비전 프로젝트_2개월차_(크롤링 :: 인스타그램, 리팩토리 함수제작 및 실행) 인스타그램은 보안(?)이 좀 강화되어있어서html이나 xpath가 종종 바뀌기때문에 아래의 코드가 100%맞지는 않는다.만약 다르다면 xpath를 재확인해주어야 합니다.1. 인스타그램 로그인#크롬드라이버 임포트import chromedriver_autoinstallerfrom selenium import webdriver #드라이버 창 띄우기driver = webdriver.Chrome()url = 'https://www.instagram.com/'driver.get(url) #인스타그램 로그인id = 아이디를 넣어줍니다pw = 비밀번호를 넣어줍니다. 아이디와 비밀번호의 칸에 각각 넣으려고하면 각 칸의 xpath의 위치를 알아야합니다. 그 후 입력값(아이디,비밀번호)을 넣어주고 로그인을 클릭하는것까지 진.. 2024. 5. 30.
AI 컴퓨터 비전 프로젝트_2개월차_(크롤링::네이버웹툰 댓글 크롤링) 1.크롤링과 스크레이핑- 크롤링(crawling):인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 하는 수집하는 행위- 스크레이핑(Scraping): 크롤링후 데이터를 추출하고 가공하는 행위전시간에 배웠던 크롤링과 스크레이핑은 정적인 페이지 내에서 데이터를 긁어오는것들이었습니다.그렇지만 모든 홈페이지가 정적인 페이지는 아니예요인스타그램이나 페이스북 같은건 스크롤을 내리면 추가로 생긴 데이터는 파싱을 할 수 없습니다.그 이후에 쌓였기때문이죠그래서 이런데이터가 유동적으로 움직이거나 다이나믹한 페이지는다른 프로그램을 사용해서 파싱해야합니다.즉 사람처럼 움직여주고 사람처럼 데이터를 가져와서 활용해보는걸 해볼겁니다.브라우저를 컨트롤해야하기때문에 주피터노트북라는걸 사용하게 됩니다.주피터 노트북 .. 2024. 5. 28.
AI 컴퓨터 비전 프로젝트_2개월차_(크롤링:: 영단어 추출, 기사,뮤직차트,주식정보, robots.txt) 1.크롤링과 스크레이핑- 크롤링(crawling):인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 하는 수집하는 행위- 스크레이핑(Scraping): 크롤링후 데이터를 추출하고 가공하는 행위  실전연습 // 정적인 URL2.Basic English Speakinghttps://basicenglishspeaking.com/daily-english-conversation-topics/        위 사이트에 있는 75개의 단어들을 변수로 담는 크롤링 을 할 것입니다.import requestsfrom bs4 import BeautifulSoup 가장먼저 import(개입)를 하고 requests를 합니다.파이썬을 설치만 하면 리퀘스트라는 모듈이 설치가 되어있습니다. ** 리퀘스트 : 서.. 2024. 5. 27.