ADsP 과목1: 데이터 이해

제1장. 데이터의 이해

1.1 데이터와 정보

1.1.1 데이터의 정의

데이터(Data)란 객관적 사실(Fact)을 나타내는 것으로, 가공되기 전의 순수한 수치나 기호를 의미한다.

1.1.2 DIKW 피라미드

        지혜 (Wisdom)
       /              \
    지식 (Knowledge)
   /                    \
  정보 (Information)
 /                        \
데이터 (Data)

단계	설명	예시
데이터 (Data)	객관적 사실. 개별적으로 의미가 없는 원시 자료	"37.5", "서울", "2024-05-15"
정보 (Information)	데이터를 가공·처리하여 의미를 부여한 것	"오늘 서울의 기온은 37.5도이다"
지식 (Knowledge)	정보를 구조화하여 패턴을 이해한 것	"8월 서울은 평균 33도 이상으로 폭염이 잦다"
지혜 (Wisdom)	지식을 기반으로 미래를 예측하고 판단하는 능력	"폭염 시 야외 행사를 자제하고 대비책을 세운다"

시험 핵심: DIKW 순서와 각 단계의 정의를 정확히 구분해야 한다. 특히 "정보 = 데이터 + 가공/맥락"이라는 점이 자주 출제된다.

1.1.3 데이터의 유형

(1) 정성적 데이터 vs 정량적 데이터

구분	정성적 데이터 (Qualitative)	정량적 데이터 (Quantitative)
정의	언어, 문자 등 비정형적 데이터	수치, 도형 등 정형적 데이터
특징	주관적, 해석 필요	객관적, 측정 가능
예시	고객 리뷰, 인터뷰 내용	매출액, 온도, 키, 몸무게

(2) 암묵지 vs 형식지

구분	암묵지 (Tacit Knowledge)	형식지 (Explicit Knowledge)
정의	학습과 경험을 통해 체화된 지식	문서나 매뉴얼로 외부에 표현된 지식
특징	전달이 어려움, 개인 내면에 존재	전달이 용이, 공유 가능
예시	장인의 기술, 직감	업무 매뉴얼, 교과서

노나카의 지식변환 프로세스 (SECI 모델)

변환	방향	설명
공통화 (Socialization)	암묵지 → 암묵지	경험 공유, 도제식 학습
표출화 (Externalization)	암묵지 → 형식지	내면의 지식을 문서/모델로 표현
연결화 (Combination)	형식지 → 형식지	여러 형식지를 조합하여 새로운 지식 생성
내면화 (Internalization)	형식지 → 암묵지	학습을 통해 개인의 노하우로 체화

1.2 데이터의 가치와 미래

1.2.1 데이터의 가치

비즈니스 가치: 의사결정 지원, 새로운 비즈니스 모델 창출
경제적 가치: 데이터 자체가 경제적 자산
사회적 가치: 공공데이터를 통한 사회 문제 해결

1.2.2 데이터 산업의 발전

시대	특징
1980년대	데이터베이스 시대, RDBMS 등장
1990년대	데이터웨어하우스, OLAP, BI 등장
2000년대	빅데이터 시대 시작, 웹 데이터 폭증
2010년대~	인공지능, 머신러닝, 딥러닝의 대중화

제2장. 데이터베이스의 이해

2.1 데이터베이스의 정의와 특성

2.1.1 데이터베이스의 정의

데이터베이스(Database)란 여러 사용자가 공유하여 사용할 수 있도록 통합·관리되는 데이터의 집합이다.

2.1.2 데이터베이스의 4가지 특성

특성	설명
통합된 데이터 (Integrated Data)	동일한 데이터가 중복 최소화되어 통합 관리됨
저장된 데이터 (Stored Data)	컴퓨터가 접근 가능한 매체에 저장됨
운영 데이터 (Operational Data)	조직의 업무를 수행하는 데 반드시 필요한 데이터
공용 데이터 (Shared Data)	여러 사용자가 서로 다른 목적으로 공유하는 데이터

시험 핵심: "통저운공" (통합, 저장, 운영, 공용)으로 암기!

2.1.3 데이터베이스의 활용

분야	활용 예시
OLTP (Online Transaction Processing)	실시간 트랜잭션 처리 (은행 이체, 주문 등)
OLAP (Online Analytical Processing)	다차원 분석, 의사결정 지원
CRM (Customer Relationship Management)	고객 관계 관리, 고객 분석
ERP (Enterprise Resource Planning)	전사적 자원 관리
BI (Business Intelligence)	비즈니스 인텔리전스, 경영 분석

2.2 데이터베이스의 유형

2.2.1 관계형 데이터베이스 (RDBMS)

데이터를 2차원 테이블(행과 열) 구조로 관리
SQL을 사용하여 데이터 조작
대표: Oracle, MySQL, PostgreSQL, MS SQL Server

2.2.2 NoSQL 데이터베이스

유형	설명	대표 제품
Key-Value	키-값 쌍으로 저장	Redis, DynamoDB
Document	JSON/BSON 문서 형태로 저장	MongoDB, CouchDB
Column-Family	칼럼 패밀리 기반 저장	HBase, Cassandra
Graph	노드와 엣지(관계)로 저장	Neo4j, OrientDB

2.2.3 데이터웨어하우스 (DW)

의사결정 지원을 위해 다양한 운영 시스템에서 추출된 데이터를 통합·변환하여 저장하는 데이터베이스이다.

특성	설명
주제 지향적 (Subject-Oriented)	특정 주제(고객, 매출 등) 중심으로 구성
통합적 (Integrated)	여러 소스의 데이터를 일관된 형태로 통합
시계열적 (Time-Variant)	시간에 따른 데이터 변화를 추적
비휘발적 (Non-Volatile)	한 번 적재되면 변경되지 않음 (읽기 전용)

2.2.4 ETL (Extract, Transform, Load)

단계	설명
Extract	다양한 소스 시스템에서 데이터 추출
Transform	데이터 정제, 변환, 통합
Load	데이터웨어하우스에 적재

제3장. 빅데이터의 이해

3.1 빅데이터의 정의

3.1.1 빅데이터란?

기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터 집합으로, 이로부터 가치를 추출하고 결과를 분석하는 기술을 포함한다.

3.1.2 빅데이터의 특성 (3V → 5V)

특성	설명
Volume (규모)	데이터의 크기가 기존과 비교할 수 없을 정도로 방대
Variety (다양성)	정형, 반정형, 비정형 등 다양한 형태의 데이터
Velocity (속도)	데이터의 생성·수집·처리 속도가 매우 빠름 (실시간)
Veracity (정확성)	데이터의 품질과 신뢰성
Value (가치)	데이터로부터 의미 있는 가치를 추출

시험 핵심: 기본 3V(Volume, Variety, Velocity)는 반드시 암기! 확장된 4V, 5V도 출제된다.

3.1.3 빅데이터의 출현 배경

디지털 데이터의 폭발적 증가 (SNS, IoT, 모바일)
저장 비용의 하락
분석 기술의 발전 (하둡, 스파크 등)
데이터 기반 의사결정의 필요성 증가

3.2 빅데이터의 가치와 영향

3.2.1 빅데이터의 가치 창출 방식

방식	설명	예시
최적화	프로세스의 비효율을 분석하여 개선	물류 경로 최적화
예측	과거 데이터를 기반으로 미래 예측	수요 예측, 이탈 예측
개인화	개인 맞춤형 서비스 제공	추천 시스템
새로운 비즈니스	데이터를 기반으로 새로운 사업 창출	데이터 거래, 데이터 서비스

3.2.2 빅데이터의 위기 요인과 통제 방안

위기 요인	설명	통제 방안
사생활 침해	개인정보 수집·분석으로 프라이버시 위협	비식별화, 동의 기반 수집
책임 원칙 훼손	예측 기반 사전 개입의 윤리적 문제	투명성 확보, 결과 책임
데이터 오용	데이터의 잘못된 해석이나 활용	분석 윤리, 검증 체계

3.3 빅데이터 기술

3.3.1 빅데이터 처리 기술

기술	설명
Hadoop	대용량 데이터 분산 처리 프레임워크. HDFS(저장) + MapReduce(처리)
MapReduce	대규모 데이터셋을 Map(분할)과 Reduce(집계) 단계로 병렬 처리
HDFS	하둡 분산 파일 시스템. 대용량 파일을 블록 단위로 분산 저장
Spark	인메모리 기반 빅데이터 처리 (MapReduce보다 빠름)
Kafka	실시간 스트리밍 데이터 처리 플랫폼

3.3.2 빅데이터 분석 기법

기법	설명
텍스트 마이닝	비정형 텍스트에서 패턴과 의미를 추출
오피니언 마이닝	감정/의견을 분석 (긍정/부정/중립)
소셜 네트워크 분석	사회적 관계망의 구조와 패턴 분석
군집 분석	유사한 특성을 가진 그룹으로 분류
웹 마이닝	웹 데이터에서 유용한 정보 추출

3.4 데이터 사이언스와 데이터 사이언티스트

3.4.1 데이터 사이언스

데이터로부터 의미 있는 정보와 지식을 추출하기 위한 학문으로, 통계학, 컴퓨터과학, 도메인 전문지식의 융합이다.

3.4.2 데이터 사이언티스트의 역량

역량	설명
Hard Skill	통계학, 프로그래밍(R/Python), 머신러닝, 데이터베이스
Soft Skill	커뮤니케이션, 스토리텔링, 비즈니스 이해, 호기심
도메인 지식	해당 업무 분야의 전문 지식

3.5 개인정보 보호

3.5.1 개인정보의 정의

살아있는 개인에 관한 정보로서, 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보를 말한다.

3.5.2 개인정보 비식별화 기법

기법	설명	예시
가명처리 (Pseudonymization)	개인을 식별할 수 있는 값을 다른 값으로 대체	홍길동 → A001
총계처리 (Aggregation)	개별 값 대신 총합, 평균 등 통계값으로 대체	나이 → 30대
데이터 삭제 (Data Reduction)	식별 가능한 속성 자체를 삭제	주민번호 삭제
데이터 범주화 (Categorization)	구체적 값을 범주로 변환	서울시 강남구 → 서울시
데이터 마스킹 (Masking)	일부를 *로 치환	010-****-1234

연습문제

문제 1. DIKW 피라미드에서 "데이터를 가공하여 의미를 부여한 것"에 해당하는 단계는?

① 데이터(Data) ② 정보(Information) ③ 지식(Knowledge) ④ 지혜(Wisdom)

정답: ② 해설: 정보(Information)는 데이터를 가공·처리하여 특정 맥락에서 의미를 부여한 것이다.

문제 2. 데이터베이스의 특성에 해당하지 않는 것은?

① 통합된 데이터 ② 저장된 데이터 ③ 임시 데이터 ④ 공용 데이터

정답: ③ 해설: 데이터베이스의 4가지 특성은 통합된 데이터, 저장된 데이터, 운영 데이터, 공용 데이터이다. "임시 데이터"는 해당하지 않는다.

문제 3. 빅데이터의 3V에 해당하지 않는 것은?

① Volume ② Variety ③ Velocity ④ Visualization

정답: ④ 해설: 빅데이터의 3V는 Volume(규모), Variety(다양성), Velocity(속도)이다. Visualization은 포함되지 않는다.

문제 4. 노나카의 SECI 모델에서 암묵지를 형식지로 변환하는 단계는?

① 공통화 ② 표출화 ③ 연결화 ④ 내면화

정답: ② 해설: 표출화(Externalization)는 개인의 암묵지를 문서, 모델 등 형식지로 표현하는 과정이다.

문제 5. 데이터웨어하우스의 특성이 아닌 것은?

① 주제 지향적 ② 통합적 ③ 실시간 변경 가능 ④ 시계열적

정답: ③ 해설: 데이터웨어하우스는 비휘발적(Non-Volatile) 특성을 가지며, 한 번 적재된 데이터는 변경되지 않는다(읽기 전용).

문제 6. 다음 중 NoSQL 데이터베이스의 유형과 대표 제품이 올바르게 연결되지 않은 것은?

① Key-Value - Redis ② Document - MongoDB ③ Column-Family - Neo4j ④ Graph - Neo4j

정답: ③ 해설: Neo4j는 Graph DB이다. Column-Family의 대표 제품은 HBase, Cassandra이다.

문제 7. 개인정보 비식별화 기법 중 "홍길동 → A001"과 같이 식별 값을 다른 값으로 대체하는 기법은?

① 총계처리 ② 가명처리 ③ 데이터 마스킹 ④ 데이터 범주화

정답: ② 해설: 가명처리(Pseudonymization)는 개인을 식별할 수 있는 값을 다른 가명 값으로 대체하는 기법이다.

문제 8. Hadoop의 분산 파일 시스템의 명칭은?

① HDFS ② MapReduce ③ Spark ④ Kafka

정답: ① 해설: HDFS(Hadoop Distributed File System)는 하둡의 분산 파일 시스템으로, 대용량 파일을 블록 단위로 분산 저장한다.

문제 9. 데이터 사이언티스트에게 필요한 역량 중 "통계학, 프로그래밍, 머신러닝" 등은 어떤 역량에 해당하는가?

① Soft Skill ② Hard Skill ③ 도메인 지식 ④ 커뮤니케이션 역량

정답: ② 해설: Hard Skill은 기술적 역량으로 통계학, 프로그래밍(R/Python), 머신러닝, 데이터베이스 등이 해당된다.

문제 10. ETL 과정에서 데이터 정제, 변환, 통합이 이루어지는 단계는?

① Extract ② Transform ③ Load ④ Mining

정답: ② 해설: Transform 단계에서 추출된 데이터의 정제, 변환, 통합이 이루어진다.

ADsP

2편 - ADsP 과목1: 데이터 이해