CRISP-DM 분석 방법론
·
자격증/ADsP
계층적 프로세스 모델로서 4개의 레벨로 구성 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 (세번째레벨) 세분화 태스크(Specialized Tasks)는 일반화 태스크를 구체적으로 행하는 레벨이다 프로세스 실행(Process Instance)은 데이터 마이닝을 위한 구체적인 실행을 포함 Phases Generic Tasks Specialized Tasks Process Intances CRISP-DM 프로세스는 6단계로 구성돼 있으며, 각 단계 간 피드백을 통해 완성도를 높입니다. 프로세스 순서 단계 내용 1 업무 이해 비지니스 관점 프로젝트의 목적과 요구 사항을 ..
KDD 분석 방법론
·
자격증/ADsP
KDD(Knowledge Discovery in Database) 1996년 Fayyad가 정리한 데이터 마이닝 프로세스로서 데이터베이스에서 의미 있는 지식을 탐색하는 데이터마이닝, 기계학습, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 절차 프로세스 순서 단계 내용 1 데이터셋 선택 분석 대상의 비지니스 도메인에 대한 이해와 프로젝트 목표 설정 2 데이터 전처리(Preprocessing) 분석 데이터셋에 포함되어 있는 잡음(noise), 이상값(outlier), 결측치(missing value)를 식별하고 필요시 제거 3 데이터 변환(Transformation) 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋 변경 4 데이터 마..
데이터 형태 분류 ( 정형, 반정형, 비정형 )
·
자격증/ADsP
정형 데이터 : 고정된 칼럼에 저장되는 데이터와 파일. 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 검색, 컬럼 구조 검색, 로우 탐색 순으로 정형화 돼 있다. 비정형 데이터와 가장 큰 차이점은 데이터의 스키마를 지원한다는 점이다. ** 스키마 : 데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기술한 것 EX) 스프레드 시트, RDBMS의 테이블 반정형 데이터 : 데이터 내부에 정형 데이터의 스키마에 해당 되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장된다. 풀어 이야기 하면 반정형 데이터 + 메타 데이터 = 진짜 데이터이다. 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다. ** 메타 데이터 : 다른 데이터를 설명 해주는 데이터..
분석 주제 유형( 최적화, 솔루션, 인사이트, 발견 )
·
자격증/ADsP
Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행 Solution : 분석 과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 과제 수행 Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 제출 Discovery : 분석 대상, 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출