728x90
반응형
기존 연구 조사 -> 데이터 파악 -> 모델 파악 -> 결과 파악
새로운 연구
데이터 수집 방법 -> 새로운 데이터 <-새로운 피쳐
크롤링 : 웹페이지에서 원하는 데이터를 추출하는 행위
무 부분별한 크롤링은 저작권에 위배된다. 사이트의 /robots.txt 확인 후 크롤링 권장
BeautifulShop : 정적페이지에 사용
셀리니움 : 동적 페이지에 사용
웹에 대한 이해
HTTP Request를 보낼 떄는 header를 보냄
크롤링을 사용할 때는
웹스크래핑이 문제되는 이유 : 웹툰 등을 긁어서 불법 사이트에 유출
크리덴셜 스터핑 : 쓸모 없는 사이트 A 사이트 id, passwd 모아서 다 모아서 B사이트에 넣어봄.
User agent
- 사용자를 대신하여 일을 수행하는 소프트웨어
- 사용자가 어떤 플랫폼으로 접속했는지 알려줌(모바일, 데스크 탑 등)
Alexa 사이트를 접속 순위 분석 알려 주는 곳
phishtank : 악성 사이트 알려주는 곳.
무료 수집사이트:
majestic.com/reports/majestic-million
정상/피싱 사이트 수집
크롤링
아래와 같이 출력
728x90
반응형
'프로그래밍 > 빅데이터' 카테고리의 다른 글
3. 라이브러 활용하여 Phishing Websites Detection (0) | 2020.11.12 |
---|---|
1. 기초 (0) | 2020.11.12 |