5편 - ADsP 과목2: 데이터 분석 기획
ADsP 과목2: 데이터 분석 기획
제1장. 데이터 분석 방법론
1.1 데이터 분석 방법론 개요
1.1.1 방법론이란?
방법론(Methodology)이란 특정 작업을 수행하기 위한 체계적인 절차와 방법의 집합이다. 데이터 분석에도 체계적인 방법론이 필요하다.
1.1.2 분석 방법론의 필요성
- 체계적이고 반복 가능한 분석 수행
- 분석 품질 보장
- 프로젝트 관리 용이
- 의사소통 표준 제공
1.2 주요 분석 방법론
1.2.1 KDD (Knowledge Discovery in Databases)
데이터베이스에서 지식을 발견하는 과정이다.
데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터마이닝 → 해석/평가
(Selection) (Preprocessing) (Transformation) (Data Mining) (Interpretation)
| 단계 | 설명 |
|---|---|
| 선택 (Selection) | 분석 대상 데이터셋 선정 |
| 전처리 (Preprocessing) | 노이즈 제거, 결측치 처리, 이상값 처리 |
| 변환 (Transformation) | 분석에 적합한 형태로 데이터 변환 (차원 축소 등) |
| 데이터마이닝 (Data Mining) | 분석 목적에 맞는 알고리즘 적용 |
| 해석/평가 (Interpretation) | 결과를 해석하고 비즈니스에 활용 |
1.2.2 CRISP-DM (Cross Industry Standard Process for Data Mining)
산업 분야에 공통적으로 적용할 수 있는 데이터마이닝 표준 프로세스이다.
┌──→ 업무 이해 ──→ 데이터 이해 ──→ 데이터 준비 ──→ 모델링 ──→ 평가 ──→ 전개 ──┐
└────────────────────────── 반복(Iteration) ──────────────────────────────────┘
| 단계 | 설명 |
|---|---|
| 업무 이해 (Business Understanding) | 비즈니스 목표와 요구사항 파악 |
| 데이터 이해 (Data Understanding) | 데이터 수집 및 탐색, 데이터 품질 확인 |
| 데이터 준비 (Data Preparation) | 분석용 데이터셋 구성, 전처리 |
| 모델링 (Modeling) | 분석 모델 구축 및 매개변수 조정 |
| 평가 (Evaluation) | 모델의 비즈니스 목표 달성 여부 평가 |
| 전개 (Deployment) | 분석 결과를 실제 업무에 적용 |
시험 핵심: CRISP-DM은 6단계이며, 순차적이지만 반복(Iteration) 가능한 모델이다. "업데준 모평전"으로 암기!
1.2.3 SEMMA (SAS Institute)
SAS에서 제안한 데이터마이닝 방법론이다.
| 단계 | 설명 |
|---|---|
| Sample | 분석 대상 데이터 추출 |
| Explore | 데이터 탐색 및 시각화 |
| Modify | 데이터 변환 및 변수 생성 |
| Model | 분석 모델 구축 |
| Assess | 모델 성능 평가 |
1.2.4 방법론 비교 (★ 매우 중요)
| 항목 | KDD | CRISP-DM | SEMMA |
|---|---|---|---|
| 제안 기관 | 학계 | 산업 컨소시엄 | SAS |
| 단계 수 | 5단계 | 6단계 | 5단계 |
| 특징 | 학술적, 프로세스 중심 | 산업 표준, 반복적 | 실무 중심, SAS 도구 기반 |
| 업무 이해 단계 | 없음 | 있음 (가장 큰 차이) | 없음 |
| 전개(배포) 단계 | 없음 | 있음 | 없음 |
| 반복성 | 제한적 | 명시적 반복 | 제한적 |
시험 핵심: 3개 방법론 중 CRISP-DM만 업무 이해(Business Understanding)와 전개(Deployment) 단계가 있다. 이것이 가장 자주 출제되는 비교 포인트이다.
1.3 빅데이터 분석 방법론
1.3.1 빅데이터 분석 방법론의 특징
빅데이터 환경에서는 기존 방법론에 다음 요소가 추가된다:
- 비정형 데이터 처리
- 실시간 분석
- 탐색적 데이터 분석(EDA)의 중요성 증가
- 반복적·점진적 분석
1.3.2 분석 방법론 프레임워크
| 계층 | 설명 |
|---|---|
| Phase (단계) | 가장 큰 작업 단위 (예: 데이터 준비) |
| Task (과제) | 단계 내의 세부 작업 |
| Step (절차) | 과제를 수행하기 위한 구체적 절차 |
제2장. 분석 마스터 플랜
2.1 분석 과제 도출
2.1.1 분석 과제 도출 방법
| 방법 | 설명 | 특징 |
|---|---|---|
| 하향식 접근법 (Top-Down) | 비즈니스 문제를 정의하고 해결 방안으로서 분석 과제 도출 | 문제 정의 → 해결 방안 탐색 → 분석 과제 도출 |
| 상향식 접근법 (Bottom-Up) | 기존 데이터를 탐색하여 인사이트를 발견하고 과제 도출 | 데이터 탐색 → 패턴/인사이트 발견 → 과제 도출 |
2.1.2 하향식 접근법의 4단계
문제 탐색 (Problem Discovery)
↓
문제 정의 (Problem Definition)
↓
해결 방안 탐색 (Solution Search)
↓
타당성 검토 (Feasibility Study)
| 단계 | 설명 | 도구/기법 |
|---|---|---|
| 문제 탐색 | 비즈니스 모델 캔버스, 분석 기회 발굴 | 비즈니스 모델 캔버스 |
| 문제 정의 | 문제를 데이터 분석 문제로 변환 | 분석 Use Case 정의 |
| 해결 방안 탐색 | 분석 기법과 데이터 확인 | 기술적 타당성 검토 |
| 타당성 검토 | 경제적·기술적 타당성 평가 | ROI 분석 |
2.1.3 상향식 접근법
데이터를 먼저 탐색하여 패턴을 발견하고, 이를 바탕으로 분석 과제를 도출한다.
- 프로토타이핑 접근
- 탐색적 데이터 분석(EDA)
- 데이터에서 인사이트를 발견
시험 핵심: 하향식은 "문제 → 데이터", 상향식은 "데이터 → 문제"이다.
2.2 분석 과제 우선순위 설정
2.2.1 우선순위 평가 기준
| 기준 | 설명 |
|---|---|
| 시급성 (Urgency) | 빨리 해결해야 하는 정도 |
| 난이도 (Difficulty) | 기술적 어려움의 정도 |
| 영향도 (Impact) | 비즈니스에 미치는 효과의 크기 |
| 실현 가능성 (Feasibility) | 데이터, 기술, 인력의 확보 가능성 |
2.2.2 분석 과제 우선순위 매트릭스
높음
영향도 ┌──────────┬──────────┐
(Impact) │ Quick Win│ 우선 추진 │
├──────────┼──────────┤
│ 보류/검토│ 장기 과제 │
└──────────┴──────────┘
쉬움 ← 난이도 → 어려움
낮음
| 영역 | 난이도 | 영향도 | 전략 |
|---|---|---|---|
| 우선 추진 | 낮음 | 높음 | 즉시 시작 (Quick Win) |
| 단기 과제 | 높음 | 높음 | 자원 집중 투입 |
| 장기 과제 | 높음 | 낮음 | 점진적 추진 |
| 보류/검토 | 낮음 | 낮음 | 추후 재검토 |
2.3 분석 마스터 플랜 수립
2.3.1 분석 마스터 플랜이란?
조직의 분석 역량을 체계적으로 강화하기 위한 중장기 분석 로드맵이다.
2.3.2 수립 절차
1. 분석 과제 도출 (하향식/상향식)
2. 분석 과제 우선순위 설정
3. 분석 로드맵 수립 (단기/중기/장기)
4. 실행 계획 수립 (인력, 조직, 교육, 인프라)
2.3.3 ISP vs 분석 마스터 플랜
| 구분 | ISP (정보전략계획) | 분석 마스터 플랜 |
|---|---|---|
| 목적 | 정보시스템 전략 수립 | 분석 전략 수립 |
| 대상 | IT 시스템 전체 | 데이터 분석 영역 |
| 접근법 | Top-Down 위주 | Top-Down + Bottom-Up |
| 산출물 | 시스템 구축 계획 | 분석 과제 및 로드맵 |
제3장. 분석 거버넌스
3.1 분석 거버넌스 체계
3.1.1 분석 거버넌스란?
데이터 분석을 조직적으로 관리하고 통제하기 위한 체계로, 분석의 품질과 일관성을 보장한다.
3.1.2 분석 거버넌스의 구성 요소
| 구성 요소 | 설명 |
|---|---|
| 조직 (Organization) | 분석 조직 구조와 역할 정의 (CoE, 분석팀 등) |
| 프로세스 (Process) | 분석 과제 관리, 분석 품질 관리 절차 |
| 시스템 (System) | 분석 플랫폼, 도구, 인프라 |
| 데이터 (Data) | 데이터 품질 관리, 메타데이터 관리 |
| 인력/교육 (Human Resource) | 분석 인력 양성, 교육 프로그램 |
3.1.3 분석 조직 유형
| 유형 | 설명 | 장점 | 단점 |
|---|---|---|---|
| 집중형 | 별도의 분석 전담 조직 운영 | 전문성 높음, 일관성 확보 | 현업과의 소통 어려움 |
| 분산형 | 각 부서 내에 분석 인력 배치 | 현업 밀착, 빠른 대응 | 전문성 부족, 비일관적 |
| 혼합형 | 전담 조직 + 부서별 분석 인력 | 전문성과 현업 밀착 모두 확보 | 관리 복잡, 비용 증가 |
시험 핵심: 집중형은 전문성이 높지만 현업 밀착이 부족하고, 분산형은 반대이다. 혼합형이 가장 이상적이지만 관리가 복잡하다.
3.2 분석 성숙도 모델
3.2.1 분석 성숙도란?
조직의 데이터 분석 역량 수준을 단계적으로 평가하는 모델이다.
3.2.2 분석 수준 진단
| 수준 | 명칭 | 설명 |
|---|---|---|
| 1단계 | 도입 (Initial) | 분석을 개인 차원에서 수행. 체계 없음 |
| 2단계 | 활용 (Managed) | 부서 단위로 분석 활용. 일부 프로세스 존재 |
| 3단계 | 확산 (Defined) | 전사적 분석 체계 수립. 표준화된 프로세스 |
| 4단계 | 최적화 (Quantitatively Managed) | 분석이 비즈니스에 내재화. 정량적 관리 |
| 5단계 | 혁신 (Optimizing) | 분석 주도의 혁신. 지속적 개선 |
3.2.3 분석 성숙도 진단 영역
| 영역 | 주요 평가 항목 |
|---|---|
| 분석 업무 | 분석 과제 도출 및 관리 수준 |
| 분석 인력/조직 | 분석 전문 인력 확보, 조직 구조 |
| 분석 기법 | 분석 방법론 및 기법 활용 수준 |
| 분석 데이터 | 데이터 품질, 관리 체계 |
| 분석 문화 | 데이터 기반 의사결정 문화 |
| 분석 인프라 | IT 인프라, 분석 도구 |
3.3 데이터 거버넌스
3.3.1 데이터 거버넌스란?
데이터의 가용성, 유용성, 무결성, 보안을 관리하기 위한 정책과 프로세스의 총체이다.
3.3.2 데이터 거버넌스의 구성 요소
| 구성 요소 | 설명 |
|---|---|
| 데이터 표준 관리 | 데이터 명명 규칙, 코드 표준 등 |
| 데이터 품질 관리 | 데이터 정확성, 완전성, 일관성 관리 |
| 데이터 생명주기 관리 | 데이터 생성~소멸까지 전 과정 관리 |
| 마스터 데이터 관리 (MDM) | 조직 내 핵심 데이터의 일관성 유지 |
| 메타 데이터 관리 | 데이터에 대한 데이터(데이터 사전 등) 관리 |
3.3.3 데이터 품질 관리 요소 (★)
| 요소 | 설명 |
|---|---|
| 정확성 (Accuracy) | 데이터가 실세계의 값을 정확하게 반영 |
| 완전성 (Completeness) | 필요한 데이터가 누락 없이 존재 |
| 일관성 (Consistency) | 동일 데이터가 시스템 간 일치 |
| 유효성 (Validity) | 데이터가 정의된 형식과 규칙에 부합 |
| 적시성 (Timeliness) | 필요한 시점에 데이터가 제공 |
| 유일성 (Uniqueness) | 동일 데이터의 불필요한 중복이 없음 |
연습문제
문제 1. 다음 분석 방법론 중 "업무 이해(Business Understanding)" 단계가 명시적으로 포함된 것은?
① KDD ② CRISP-DM ③ SEMMA ④ 모두 포함
정답: ② 해설: CRISP-DM만 업무 이해(Business Understanding)와 전개(Deployment) 단계를 명시적으로 포함한다. KDD와 SEMMA에는 이 단계가 없다.
문제 2. CRISP-DM의 6단계를 순서대로 나열한 것은?
① 업무이해 → 데이터준비 → 데이터이해 → 모델링 → 평가 → 전개 ② 업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 전개 ③ 데이터이해 → 업무이해 → 데이터준비 → 모델링 → 전개 → 평가 ④ 업무이해 → 데이터이해 → 모델링 → 데이터준비 → 평가 → 전개
정답: ② 해설: CRISP-DM은 업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 전개 순서이다.
문제 3. 분석 과제 도출 방법 중 데이터를 먼저 탐색하여 패턴을 발견하고 과제를 도출하는 방식은?
① 하향식 접근법 ② 상향식 접근법 ③ 혼합식 접근법 ④ 순차적 접근법
정답: ② 해설: 상향식 접근법(Bottom-Up)은 데이터를 먼저 탐색하여 인사이트를 발견하고 이를 기반으로 분석 과제를 도출하는 방법이다.
문제 4. 분석 조직 유형 중 "별도의 분석 전담 조직을 운영하여 전문성은 높지만 현업과의 소통이 어려운" 유형은?
① 집중형 ② 분산형 ③ 혼합형 ④ 독립형
정답: ① 해설: 집중형은 분석 전담 조직을 별도로 운영하여 전문성이 높지만, 현업 부서와의 소통이 어려울 수 있다.
문제 5. KDD 방법론의 단계 순서로 올바른 것은?
① 선택 → 변환 → 전처리 → 데이터마이닝 → 해석 ② 선택 → 전처리 → 변환 → 데이터마이닝 → 해석 ③ 전처리 → 선택 → 변환 → 데이터마이닝 → 해석 ④ 선택 → 전처리 → 데이터마이닝 → 변환 → 해석
정답: ② 해설: KDD는 선택(Selection) → 전처리(Preprocessing) → 변환(Transformation) → 데이터마이닝(Data Mining) → 해석/평가(Interpretation) 순서이다.
문제 6. 데이터 품질 관리 요소 중 "필요한 데이터가 누락 없이 존재하는 것"을 의미하는 것은?
① 정확성 ② 완전성 ③ 일관성 ④ 적시성
정답: ② 해설: 완전성(Completeness)은 필요한 데이터가 빠짐없이 모두 존재하는 것을 의미한다.
문제 7. 분석 과제 우선순위 매트릭스에서 "난이도가 낮고 영향도가 높은" 과제에 대한 전략은?
① 장기 과제 ② 보류/검토 ③ Quick Win (우선 추진) ④ 점진적 추진
정답: ③ 해설: 난이도가 낮고 영향도가 높은 과제는 Quick Win으로 즉시 추진하는 것이 효과적이다.
문제 8. SEMMA 방법론의 단계에 해당하지 않는 것은?
① Sample ② Explore ③ Model ④ Deploy
정답: ④ 해설: SEMMA는 Sample, Explore, Modify, Model, Assess의 5단계이다. Deploy(전개)는 CRISP-DM에 포함된다.