본문 바로가기
프로그래밍/빅데이터

2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)

by Royal! 2020. 11. 12.
728x90
반응형

기존 연구 조사 -> 데이터 파악 -> 모델 파악 -> 결과 파악 

 

새로운 연구

 

데이터 수집 방법 -> 새로운 데이터 <-새로운 피쳐


크롤링 : 웹페이지에서 원하는 데이터를 추출하는 행위

 

무 부분별한 크롤링은 저작권에 위배된다. 사이트의 /robots.txt 확인 후 크롤링 권장

 

BeautifulShop : 정적페이지에 사용

 

셀리니움 :  동적 페이지에 사용


웹에 대한 이해

 

HTTP Request를 보낼 떄는 header를 보냄

크롤링을 사용할 때는 

 

웹스크래핑이 문제되는 이유 :  웹툰 등을 긁어서 불법 사이트에 유출

크리덴셜 스터핑 : 쓸모 없는 사이트 A 사이트 id, passwd 모아서 다 모아서 B사이트에 넣어봄.

 

User agent 

- 사용자를 대신하여 일을 수행하는 소프트웨어

- 사용자가 어떤 플랫폼으로 접속했는지 알려줌(모바일, 데스크 탑 등)


Alexa 사이트를 접속 순위 분석 알려 주는 곳

 

phishtank : 악성 사이트 알려주는 곳.

 

무료 수집사이트:

majestic.com/reports/majestic-million

정상/피싱 사이트 수집


크롤링

 

아래와 같이 출력

soup로 출력한 값

 

 

a태그가 들어간 값 출력

 

a 가 들어간 href 태그 출력
값을 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

728x90
반응형

'프로그래밍 > 빅데이터' 카테고리의 다른 글

3. 라이브러 활용하여 Phishing Websites Detection  (0) 2020.11.12
1. 기초  (0) 2020.11.12