2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)

728x90

기존 연구 조사 -> 데이터 파악 -> 모델 파악 -> 결과 파악

새로운 연구

데이터 수집 방법 -> 새로운 데이터 <-새로운 피쳐

크롤링 : 웹페이지에서 원하는 데이터를 추출하는 행위

무 부분별한 크롤링은 저작권에 위배된다. 사이트의 /robots.txt 확인 후 크롤링 권장

BeautifulShop : 정적페이지에 사용

셀리니움 : 동적 페이지에 사용

웹에 대한 이해

HTTP Request를 보낼 떄는 header를 보냄

크롤링을 사용할 때는

웹스크래핑이 문제되는 이유 : 웹툰 등을 긁어서 불법 사이트에 유출

크리덴셜 스터핑 : 쓸모 없는 사이트 A 사이트 id, passwd 모아서 다 모아서 B사이트에 넣어봄.

User agent

- 사용자를 대신하여 일을 수행하는 소프트웨어

- 사용자가 어떤 플랫폼으로 접속했는지 알려줌(모바일, 데스크 탑 등)

Alexa 사이트를 접속 순위 분석 알려 주는 곳

phishtank : 악성 사이트 알려주는 곳.

무료 수집사이트:

정상/피싱 사이트 수집

크롤링

아래와 같이 출력

728x90

3. 라이브러 활용하여 Phishing Websites Detection (0)	2020.11.12
1. 기초 (0)	2020.11.12

티스토리툴바