728x90
반응형
정형 데이터 : 고정된 칼럼에 저장되는 데이터와 파일. 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 검색, 컬럼 구조 검색, 로우 탐색 순으로 정형화 돼 있다.
비정형 데이터와 가장 큰 차이점은 데이터의 스키마를 지원한다는 점이다.
** 스키마 : 데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기술한 것
EX) 스프레드 시트, RDBMS의 테이블
반정형 데이터 : 데이터 내부에 정형 데이터의 스키마에 해당 되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장된다. 풀어 이야기 하면 반정형 데이터 + 메타 데이터 = 진짜 데이터이다. 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다.
** 메타 데이터 : 다른 데이터를 설명 해주는 데이터.
EX) URL 형태로 존재
HTML, 오튼 API 형태로 제공 - XML, JSON
비정형 데이터 : 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 돼 있다. 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터이다.
EX) 소셜 데이터의 텍스트, 동영상, 이미지
정리하자면 정형/반정형 데이터는 스키마를 보유해서 Ctrl + F(찾기) 해서 데이터를 찾을 수 있다고 생각하면 되는데,
비정형 데이터는 스키마가 없어서 Ctrl + F(찾기) 가 안 된다고 생각하면 이해하기 편하다.
728x90
반응형
'자격증 > ADsP' 카테고리의 다른 글
CRISP-DM 분석 방법론 (0) | 2023.02.15 |
---|---|
KDD 분석 방법론 (0) | 2023.02.15 |
분석 주제 유형( 최적화, 솔루션, 인사이트, 발견 ) (0) | 2023.02.14 |
비지니스 모델 - 빅데이터 활용 테크닉 (0) | 2023.02.07 |
데이터의 가치와 미래(위기 요인과 통제 방안) (0) | 2021.08.13 |