2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)

2020. 11. 12. 11:30·프로그래밍/빅데이터
728x90
반응형

기존 연구 조사 -> 데이터 파악 -> 모델 파악 -> 결과 파악 

 

새로운 연구

 

데이터 수집 방법 -> 새로운 데이터 <-새로운 피쳐


크롤링 : 웹페이지에서 원하는 데이터를 추출하는 행위

 

무 부분별한 크롤링은 저작권에 위배된다. 사이트의 /robots.txt 확인 후 크롤링 권장

 

BeautifulShop : 정적페이지에 사용

 

셀리니움 :  동적 페이지에 사용


웹에 대한 이해

 

HTTP Request를 보낼 떄는 header를 보냄

크롤링을 사용할 때는 

 

웹스크래핑이 문제되는 이유 :  웹툰 등을 긁어서 불법 사이트에 유출

크리덴셜 스터핑 : 쓸모 없는 사이트 A 사이트 id, passwd 모아서 다 모아서 B사이트에 넣어봄.

 

User agent 

- 사용자를 대신하여 일을 수행하는 소프트웨어

- 사용자가 어떤 플랫폼으로 접속했는지 알려줌(모바일, 데스크 탑 등)


Alexa 사이트를 접속 순위 분석 알려 주는 곳

 

phishtank : 악성 사이트 알려주는 곳.

 

무료 수집사이트:

majestic.com/reports/majestic-million

정상/피싱 사이트 수집


크롤링

 

아래와 같이 출력

soup로 출력한 값

 

 

a태그가 들어간 값 출력

 

a 가 들어간 href 태그 출력
값을 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

728x90
반응형

'프로그래밍 > 빅데이터' 카테고리의 다른 글

3. 라이브러 활용하여 Phishing Websites Detection  (0) 2020.11.12
1. 기초  (0) 2020.11.12
'프로그래밍/빅데이터' 카테고리의 다른 글
  • 3. 라이브러 활용하여 Phishing Websites Detection
  • 1. 기초
Royal!
Royal!
Bachelor of Arts. Bachelor of Science in Engineering. Master of Science in Engineering (In Progress). Job Title: Infrastructure & Security & Cloud Engineer. Etc: Mentor at Fourth Industrial Revolution Center.
  • Royal!
    Security
    Royal!
  • 전체
    오늘
    어제
    • 분류 전체보기
      • 운영체제
      • 네트워크
      • 클라우드
      • 서버
      • Container
      • 프로그래밍
        • Python_혼자 끄적끄적
        • Python_AI(영상처리)
        • 빅데이터
        • C_정보올림피아드 Language_Coder
        • C_QnA
      • 자격증
        • 정보보안기사
        • 정보처리기사
        • ADsP
        • CPPG
        • 보안법률
        • NCA~NCP
        • AWS Certified Solutions Arc..
      • 리버싱
        • 리버싱 걸음마
      • Wargame & CTF
        • Hackerschool FTZ
      • 기타 교육
        • KISA 정보보호제품실습군
        • 빅데이터_분석실무
        • 시큐어코딩진단전문교육(호남정보보호센터)
        • SW테스트 전문가 과정(ISTQB CTFL자격)
        • 정보보호 컨설팅 전문가 양성과정
      • 기타
        • 면접일지
        • 기타
        • 인턴활동
        • 논문 요약
      • K-Shield Jr
        • 악성코드분석
        • 침해사고분석
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    rest api 논문
    getuid
    네이버클라우드 ftp 설정
    uid란
    restful api 개념
    nce덤프
    상태코드 304
    kernel모드
    euid가 중요한 이유
    스위치 프레임 동작 방식
    fragment-free
    switch forwarding mode
    redirect 304
    geteuid
    rest api 문법
    rest api 정리
    rest api 공부
    304코드
    스위치 프레임 포워딩 방식
    nce dump
    rest api 제약조건
    getuid()
    geteuid()
    304 code
    rest api 아키텍처
    l2 스위치 프레임 전달 방식
    kernel 사용자 모드
    kernel 구성요소
    euid란
    swtich frame
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Royal!
2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)
상단으로

티스토리툴바