자격증/ADsP

CRISP-DM 분석 방법론

Royal! 2023. 2. 15. 13:06
728x90
반응형
  • 계층적 프로세스 모델로서 4개의 레벨로 구성
  • 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함
  • 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
  • (세번째레벨) 세분화 태스크(Specialized Tasks)는 일반화 태스크를 구체적으로 행하는 레벨이다
  • 프로세스 실행(Process Instance)은 데이터 마이닝을 위한 구체적인 실행을 포함
Phases
Generic Tasks
Specialized Tasks
Process Intances

 

CRISP-DM 프로세스는 6단계로 구성돼 있으며, 각 단계 간 피드백을 통해 완성도를 높입니다.

프로세스 순서 단계 내용
1 업무 이해 비지니스 관점 프로젝트의 목적과 요구 사항을 이해하기 위한 단계
2 데이터의 이해 데이터 수집, 속성 이해, 품질의 문제점 파악 등 숨겨져 있는 인사이트를 발견하는 과정
3 데이터 준비 분석 기법에 적합한 데이터셋을 편성하는 단계
4 모델링 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화함. 모델과적합(Overfitting) 등의 문제를 발견하고 대응하는 과정
5 평가 모델링 단계에서 얻은 모델이 프로젝트에 적합한지 평가하는 단계
6 전개 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립

 

KDD와 CRISP-DM을 비교

KDD CRISP-DM
분석 대상 비지니스 이해 업무 이해
데이터셋 선택 데이터 이해
데이터 전처리
데이터 변환 모델링 준비
데이터 마이닝 모델링
데이터 마이닝 결과 평과 평가
데이터 마이닝 활용 전개
728x90
반응형