← 강의 목록

ADsP

5편 - ADsP 과목2: 데이터 분석 기획

ADsP 과목2: 데이터 분석 기획


제1장. 데이터 분석 방법론


1.1 데이터 분석 방법론 개요

1.1.1 방법론이란?

방법론(Methodology)이란 특정 작업을 수행하기 위한 체계적인 절차와 방법의 집합이다. 데이터 분석에도 체계적인 방법론이 필요하다.

1.1.2 분석 방법론의 필요성

  • 체계적이고 반복 가능한 분석 수행
  • 분석 품질 보장
  • 프로젝트 관리 용이
  • 의사소통 표준 제공

1.2 주요 분석 방법론

1.2.1 KDD (Knowledge Discovery in Databases)

데이터베이스에서 지식을 발견하는 과정이다.

데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터마이닝 → 해석/평가
   (Selection)   (Preprocessing)  (Transformation)  (Data Mining)  (Interpretation)
단계설명
선택 (Selection)분석 대상 데이터셋 선정
전처리 (Preprocessing)노이즈 제거, 결측치 처리, 이상값 처리
변환 (Transformation)분석에 적합한 형태로 데이터 변환 (차원 축소 등)
데이터마이닝 (Data Mining)분석 목적에 맞는 알고리즘 적용
해석/평가 (Interpretation)결과를 해석하고 비즈니스에 활용

1.2.2 CRISP-DM (Cross Industry Standard Process for Data Mining)

산업 분야에 공통적으로 적용할 수 있는 데이터마이닝 표준 프로세스이다.

    ┌──→ 업무 이해 ──→ 데이터 이해 ──→ 데이터 준비 ──→ 모델링 ──→ 평가 ──→ 전개 ──┐
    └────────────────────────── 반복(Iteration) ──────────────────────────────────┘
단계설명
업무 이해 (Business Understanding)비즈니스 목표와 요구사항 파악
데이터 이해 (Data Understanding)데이터 수집 및 탐색, 데이터 품질 확인
데이터 준비 (Data Preparation)분석용 데이터셋 구성, 전처리
모델링 (Modeling)분석 모델 구축 및 매개변수 조정
평가 (Evaluation)모델의 비즈니스 목표 달성 여부 평가
전개 (Deployment)분석 결과를 실제 업무에 적용

시험 핵심: CRISP-DM은 6단계이며, 순차적이지만 반복(Iteration) 가능한 모델이다. "업데준 모평전"으로 암기!

1.2.3 SEMMA (SAS Institute)

SAS에서 제안한 데이터마이닝 방법론이다.

단계설명
Sample분석 대상 데이터 추출
Explore데이터 탐색 및 시각화
Modify데이터 변환 및 변수 생성
Model분석 모델 구축
Assess모델 성능 평가

1.2.4 방법론 비교 (★ 매우 중요)

항목KDDCRISP-DMSEMMA
제안 기관학계산업 컨소시엄SAS
단계 수5단계6단계5단계
특징학술적, 프로세스 중심산업 표준, 반복적실무 중심, SAS 도구 기반
업무 이해 단계없음있음 (가장 큰 차이)없음
전개(배포) 단계없음있음없음
반복성제한적명시적 반복제한적

시험 핵심: 3개 방법론 중 CRISP-DM만 업무 이해(Business Understanding)와 전개(Deployment) 단계가 있다. 이것이 가장 자주 출제되는 비교 포인트이다.


1.3 빅데이터 분석 방법론

1.3.1 빅데이터 분석 방법론의 특징

빅데이터 환경에서는 기존 방법론에 다음 요소가 추가된다:

  • 비정형 데이터 처리
  • 실시간 분석
  • 탐색적 데이터 분석(EDA)의 중요성 증가
  • 반복적·점진적 분석

1.3.2 분석 방법론 프레임워크

계층설명
Phase (단계)가장 큰 작업 단위 (예: 데이터 준비)
Task (과제)단계 내의 세부 작업
Step (절차)과제를 수행하기 위한 구체적 절차

제2장. 분석 마스터 플랜


2.1 분석 과제 도출

2.1.1 분석 과제 도출 방법

방법설명특징
하향식 접근법 (Top-Down)비즈니스 문제를 정의하고 해결 방안으로서 분석 과제 도출문제 정의 → 해결 방안 탐색 → 분석 과제 도출
상향식 접근법 (Bottom-Up)기존 데이터를 탐색하여 인사이트를 발견하고 과제 도출데이터 탐색 → 패턴/인사이트 발견 → 과제 도출

2.1.2 하향식 접근법의 4단계

문제 탐색 (Problem Discovery)
    ↓
문제 정의 (Problem Definition)
    ↓
해결 방안 탐색 (Solution Search)
    ↓
타당성 검토 (Feasibility Study)
단계설명도구/기법
문제 탐색비즈니스 모델 캔버스, 분석 기회 발굴비즈니스 모델 캔버스
문제 정의문제를 데이터 분석 문제로 변환분석 Use Case 정의
해결 방안 탐색분석 기법과 데이터 확인기술적 타당성 검토
타당성 검토경제적·기술적 타당성 평가ROI 분석

2.1.3 상향식 접근법

데이터를 먼저 탐색하여 패턴을 발견하고, 이를 바탕으로 분석 과제를 도출한다.

  • 프로토타이핑 접근
  • 탐색적 데이터 분석(EDA)
  • 데이터에서 인사이트를 발견

시험 핵심: 하향식은 "문제 → 데이터", 상향식은 "데이터 → 문제"이다.


2.2 분석 과제 우선순위 설정

2.2.1 우선순위 평가 기준

기준설명
시급성 (Urgency)빨리 해결해야 하는 정도
난이도 (Difficulty)기술적 어려움의 정도
영향도 (Impact)비즈니스에 미치는 효과의 크기
실현 가능성 (Feasibility)데이터, 기술, 인력의 확보 가능성

2.2.2 분석 과제 우선순위 매트릭스

              높음
  영향도     ┌──────────┬──────────┐
  (Impact)   │ Quick Win│ 우선 추진 │
              ├──────────┼──────────┤
              │ 보류/검토│ 장기 과제 │
              └──────────┴──────────┘
              쉬움 ← 난이도 → 어려움
              낮음
영역난이도영향도전략
우선 추진낮음높음즉시 시작 (Quick Win)
단기 과제높음높음자원 집중 투입
장기 과제높음낮음점진적 추진
보류/검토낮음낮음추후 재검토

2.3 분석 마스터 플랜 수립

2.3.1 분석 마스터 플랜이란?

조직의 분석 역량을 체계적으로 강화하기 위한 중장기 분석 로드맵이다.

2.3.2 수립 절차

1. 분석 과제 도출 (하향식/상향식)
2. 분석 과제 우선순위 설정
3. 분석 로드맵 수립 (단기/중기/장기)
4. 실행 계획 수립 (인력, 조직, 교육, 인프라)

2.3.3 ISP vs 분석 마스터 플랜

구분ISP (정보전략계획)분석 마스터 플랜
목적정보시스템 전략 수립분석 전략 수립
대상IT 시스템 전체데이터 분석 영역
접근법Top-Down 위주Top-Down + Bottom-Up
산출물시스템 구축 계획분석 과제 및 로드맵

제3장. 분석 거버넌스


3.1 분석 거버넌스 체계

3.1.1 분석 거버넌스란?

데이터 분석을 조직적으로 관리하고 통제하기 위한 체계로, 분석의 품질과 일관성을 보장한다.

3.1.2 분석 거버넌스의 구성 요소

구성 요소설명
조직 (Organization)분석 조직 구조와 역할 정의 (CoE, 분석팀 등)
프로세스 (Process)분석 과제 관리, 분석 품질 관리 절차
시스템 (System)분석 플랫폼, 도구, 인프라
데이터 (Data)데이터 품질 관리, 메타데이터 관리
인력/교육 (Human Resource)분석 인력 양성, 교육 프로그램

3.1.3 분석 조직 유형

유형설명장점단점
집중형별도의 분석 전담 조직 운영전문성 높음, 일관성 확보현업과의 소통 어려움
분산형각 부서 내에 분석 인력 배치현업 밀착, 빠른 대응전문성 부족, 비일관적
혼합형전담 조직 + 부서별 분석 인력전문성과 현업 밀착 모두 확보관리 복잡, 비용 증가

시험 핵심: 집중형은 전문성이 높지만 현업 밀착이 부족하고, 분산형은 반대이다. 혼합형이 가장 이상적이지만 관리가 복잡하다.


3.2 분석 성숙도 모델

3.2.1 분석 성숙도란?

조직의 데이터 분석 역량 수준을 단계적으로 평가하는 모델이다.

3.2.2 분석 수준 진단

수준명칭설명
1단계도입 (Initial)분석을 개인 차원에서 수행. 체계 없음
2단계활용 (Managed)부서 단위로 분석 활용. 일부 프로세스 존재
3단계확산 (Defined)전사적 분석 체계 수립. 표준화된 프로세스
4단계최적화 (Quantitatively Managed)분석이 비즈니스에 내재화. 정량적 관리
5단계혁신 (Optimizing)분석 주도의 혁신. 지속적 개선

3.2.3 분석 성숙도 진단 영역

영역주요 평가 항목
분석 업무분석 과제 도출 및 관리 수준
분석 인력/조직분석 전문 인력 확보, 조직 구조
분석 기법분석 방법론 및 기법 활용 수준
분석 데이터데이터 품질, 관리 체계
분석 문화데이터 기반 의사결정 문화
분석 인프라IT 인프라, 분석 도구

3.3 데이터 거버넌스

3.3.1 데이터 거버넌스란?

데이터의 가용성, 유용성, 무결성, 보안을 관리하기 위한 정책과 프로세스의 총체이다.

3.3.2 데이터 거버넌스의 구성 요소

구성 요소설명
데이터 표준 관리데이터 명명 규칙, 코드 표준 등
데이터 품질 관리데이터 정확성, 완전성, 일관성 관리
데이터 생명주기 관리데이터 생성~소멸까지 전 과정 관리
마스터 데이터 관리 (MDM)조직 내 핵심 데이터의 일관성 유지
메타 데이터 관리데이터에 대한 데이터(데이터 사전 등) 관리

3.3.3 데이터 품질 관리 요소 (★)

요소설명
정확성 (Accuracy)데이터가 실세계의 값을 정확하게 반영
완전성 (Completeness)필요한 데이터가 누락 없이 존재
일관성 (Consistency)동일 데이터가 시스템 간 일치
유효성 (Validity)데이터가 정의된 형식과 규칙에 부합
적시성 (Timeliness)필요한 시점에 데이터가 제공
유일성 (Uniqueness)동일 데이터의 불필요한 중복이 없음

연습문제


문제 1. 다음 분석 방법론 중 "업무 이해(Business Understanding)" 단계가 명시적으로 포함된 것은?

① KDD ② CRISP-DM ③ SEMMA ④ 모두 포함

정답: ② 해설: CRISP-DM만 업무 이해(Business Understanding)와 전개(Deployment) 단계를 명시적으로 포함한다. KDD와 SEMMA에는 이 단계가 없다.


문제 2. CRISP-DM의 6단계를 순서대로 나열한 것은?

① 업무이해 → 데이터준비 → 데이터이해 → 모델링 → 평가 → 전개 ② 업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 전개 ③ 데이터이해 → 업무이해 → 데이터준비 → 모델링 → 전개 → 평가 ④ 업무이해 → 데이터이해 → 모델링 → 데이터준비 → 평가 → 전개

정답: ② 해설: CRISP-DM은 업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 전개 순서이다.


문제 3. 분석 과제 도출 방법 중 데이터를 먼저 탐색하여 패턴을 발견하고 과제를 도출하는 방식은?

① 하향식 접근법 ② 상향식 접근법 ③ 혼합식 접근법 ④ 순차적 접근법

정답: ② 해설: 상향식 접근법(Bottom-Up)은 데이터를 먼저 탐색하여 인사이트를 발견하고 이를 기반으로 분석 과제를 도출하는 방법이다.


문제 4. 분석 조직 유형 중 "별도의 분석 전담 조직을 운영하여 전문성은 높지만 현업과의 소통이 어려운" 유형은?

① 집중형 ② 분산형 ③ 혼합형 ④ 독립형

정답: ① 해설: 집중형은 분석 전담 조직을 별도로 운영하여 전문성이 높지만, 현업 부서와의 소통이 어려울 수 있다.


문제 5. KDD 방법론의 단계 순서로 올바른 것은?

① 선택 → 변환 → 전처리 → 데이터마이닝 → 해석 ② 선택 → 전처리 → 변환 → 데이터마이닝 → 해석 ③ 전처리 → 선택 → 변환 → 데이터마이닝 → 해석 ④ 선택 → 전처리 → 데이터마이닝 → 변환 → 해석

정답: ② 해설: KDD는 선택(Selection) → 전처리(Preprocessing) → 변환(Transformation) → 데이터마이닝(Data Mining) → 해석/평가(Interpretation) 순서이다.


문제 6. 데이터 품질 관리 요소 중 "필요한 데이터가 누락 없이 존재하는 것"을 의미하는 것은?

① 정확성 ② 완전성 ③ 일관성 ④ 적시성

정답: ② 해설: 완전성(Completeness)은 필요한 데이터가 빠짐없이 모두 존재하는 것을 의미한다.


문제 7. 분석 과제 우선순위 매트릭스에서 "난이도가 낮고 영향도가 높은" 과제에 대한 전략은?

① 장기 과제 ② 보류/검토 ③ Quick Win (우선 추진) ④ 점진적 추진

정답: ③ 해설: 난이도가 낮고 영향도가 높은 과제는 Quick Win으로 즉시 추진하는 것이 효과적이다.


문제 8. SEMMA 방법론의 단계에 해당하지 않는 것은?

① Sample ② Explore ③ Model ④ Deploy

정답: ④ 해설: SEMMA는 Sample, Explore, Modify, Model, Assess의 5단계이다. Deploy(전개)는 CRISP-DM에 포함된다.