2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)

2020. 11. 12. 11:30·프로그래밍/빅데이터
728x90
반응형

기존 연구 조사 -> 데이터 파악 -> 모델 파악 -> 결과 파악 

 

새로운 연구

 

데이터 수집 방법 -> 새로운 데이터 <-새로운 피쳐


크롤링 : 웹페이지에서 원하는 데이터를 추출하는 행위

 

무 부분별한 크롤링은 저작권에 위배된다. 사이트의 /robots.txt 확인 후 크롤링 권장

 

BeautifulShop : 정적페이지에 사용

 

셀리니움 :  동적 페이지에 사용


웹에 대한 이해

 

HTTP Request를 보낼 떄는 header를 보냄

크롤링을 사용할 때는 

 

웹스크래핑이 문제되는 이유 :  웹툰 등을 긁어서 불법 사이트에 유출

크리덴셜 스터핑 : 쓸모 없는 사이트 A 사이트 id, passwd 모아서 다 모아서 B사이트에 넣어봄.

 

User agent 

- 사용자를 대신하여 일을 수행하는 소프트웨어

- 사용자가 어떤 플랫폼으로 접속했는지 알려줌(모바일, 데스크 탑 등)


Alexa 사이트를 접속 순위 분석 알려 주는 곳

 

phishtank : 악성 사이트 알려주는 곳.

 

무료 수집사이트:

majestic.com/reports/majestic-million

정상/피싱 사이트 수집


크롤링

 

아래와 같이 출력

soup로 출력한 값

 

 

a태그가 들어간 값 출력

 

a 가 들어간 href 태그 출력
값을 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

728x90
반응형

'프로그래밍 > 빅데이터' 카테고리의 다른 글

3. 라이브러 활용하여 Phishing Websites Detection  (0) 2020.11.12
1. 기초  (0) 2020.11.12
'프로그래밍/빅데이터' 카테고리의 다른 글
  • 3. 라이브러 활용하여 Phishing Websites Detection
  • 1. 기초
Royal!
Royal!
Bachelor of Arts. Bachelor of Science in Engineering. Master of Science in Engineering (In Progress). Job Title: Infrastructure & Security & Cloud Engineer. Etc: Mentor at Fourth Industrial Revolution Center.
  • Royal!
    Security
    Royal!
  • 전체
    오늘
    어제
    • 분류 전체보기
      • 운영체제
      • 네트워크
      • 클라우드
      • 서버
        • Container
      • 보안
      • 프로그래밍
        • Python_혼자 끄적끄적
        • Python_AI(영상처리)
        • 빅데이터
        • C_정보올림피아드 Language_Coder
        • C_QnA
      • 자격증
        • 정보보안기사
        • 정보처리기사
        • ADsP
        • CPPG
        • 보안법률
        • NCA~NCP
        • AWS Certified Solutions Arc..
      • 기타
        • 면접일지
        • 기타 활동
        • 인턴활동
        • 논문 요약
        • Hackerschool FTZ
        • 리버싱 걸음마
      • 기타 교육
        • KISA 정보보호제품실습군
        • 빅데이터_분석실무
        • 시큐어코딩진단전문교육(호남정보보호센터)
        • SW테스트 전문가 과정(ISTQB CTFL자격)
        • 정보보호 컨설팅 전문가 양성과정
        • K-Shield Jr_악성코드분석
        • K-Shield Jr_침해사고분석
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    LBaaS설치
    switch forwarding mode
    네이버클라우드 ftp 설정
    SSRF 방어방법
    nce dump
    l2 스위치 프레임 전달 방식
    블록체인체험
    블록체인누리단
    swtich frame
    스위치 프레임 동작 방식
    F5 AWAF
    fragment-free
    ICT이노베이션스퀘어
    SSRF란
    openstack F5연동
    ai
    WAF SSRF
    F5 LBaaS
    F5 WAF
    SSRF 막는 방법
    우수교육생
    2025블록체인누리단
    F5 SSRF
    지그립토
    openstack lbaas
    openstack LBaaS설치
    SSRF 완화방법
    nce덤프
    LBaaS
    openstack설치
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Royal!
2. 기초 웹 크롤링 방법(Beautifulsoup를 활용한)
상단으로

티스토리툴바