KDD 분석 방법론
·
자격증/ADsP
KDD(Knowledge Discovery in Database) 1996년 Fayyad가 정리한 데이터 마이닝 프로세스로서 데이터베이스에서 의미 있는 지식을 탐색하는 데이터마이닝, 기계학습, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 절차 프로세스 순서 단계 내용 1 데이터셋 선택 분석 대상의 비지니스 도메인에 대한 이해와 프로젝트 목표 설정 2 데이터 전처리(Preprocessing) 분석 데이터셋에 포함되어 있는 잡음(noise), 이상값(outlier), 결측치(missing value)를 식별하고 필요시 제거 3 데이터 변환(Transformation) 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋 변경 4 데이터 마..
데이터 형태 분류 ( 정형, 반정형, 비정형 )
·
자격증/ADsP
정형 데이터 : 고정된 칼럼에 저장되는 데이터와 파일. 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 검색, 컬럼 구조 검색, 로우 탐색 순으로 정형화 돼 있다. 비정형 데이터와 가장 큰 차이점은 데이터의 스키마를 지원한다는 점이다. ** 스키마 : 데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기술한 것 EX) 스프레드 시트, RDBMS의 테이블 반정형 데이터 : 데이터 내부에 정형 데이터의 스키마에 해당 되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장된다. 풀어 이야기 하면 반정형 데이터 + 메타 데이터 = 진짜 데이터이다. 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다. ** 메타 데이터 : 다른 데이터를 설명 해주는 데이터..
분석 주제 유형( 최적화, 솔루션, 인사이트, 발견 )
·
자격증/ADsP
Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행 Solution : 분석 과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 과제 수행 Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 제출 Discovery : 분석 대상, 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출
비지니스 모델 - 빅데이터 활용 테크닉
·
자격증/ADsP
연관규칙학습(Association rule learning) : 어떤 변수간에 주목할 만한 상관관계가 있는지 찾아내는 방법 EX) 마트에서 상관관계가 높은 상품을 함께 진열 - 기저귀와 분유 유형 분석(Classification tree Analysis) : 사용자가 어떤 특성을 가진 집단에 속하는지 등의 문제를 해결할 때 EX) MBTI 특성에 따라 수강생을 분류 유전 알고리즘(Genetic algorithms) : 최적화의 매커니즘을 찾는 것. 최대의 시청률을 얻을려면 어떤 방송을 어떤 시간에 해야하는가와 같은 문제를 해결 할 때 사용. EX) 자동차 출력을 좋게하려면 어떤 부품을 어디에 설치해야하는가 기계학습(Machine learnign) : 기존의 시청기록을 바탕으로 "시청자가 현재 보유한 영화..