2편 - ADsP 과목1: 데이터 이해
ADsP 과목1: 데이터 이해
제1장. 데이터의 이해
1.1 데이터와 정보
1.1.1 데이터의 정의
데이터(Data)란 객관적 사실(Fact)을 나타내는 것으로, 가공되기 전의 순수한 수치나 기호를 의미한다.
1.1.2 DIKW 피라미드
지혜 (Wisdom)
/ \
지식 (Knowledge)
/ \
정보 (Information)
/ \
데이터 (Data)
| 단계 | 설명 | 예시 |
|---|---|---|
| 데이터 (Data) | 객관적 사실. 개별적으로 의미가 없는 원시 자료 | "37.5", "서울", "2024-05-15" |
| 정보 (Information) | 데이터를 가공·처리하여 의미를 부여한 것 | "오늘 서울의 기온은 37.5도이다" |
| 지식 (Knowledge) | 정보를 구조화하여 패턴을 이해한 것 | "8월 서울은 평균 33도 이상으로 폭염이 잦다" |
| 지혜 (Wisdom) | 지식을 기반으로 미래를 예측하고 판단하는 능력 | "폭염 시 야외 행사를 자제하고 대비책을 세운다" |
시험 핵심: DIKW 순서와 각 단계의 정의를 정확히 구분해야 한다. 특히 "정보 = 데이터 + 가공/맥락"이라는 점이 자주 출제된다.
1.1.3 데이터의 유형
(1) 정성적 데이터 vs 정량적 데이터
| 구분 | 정성적 데이터 (Qualitative) | 정량적 데이터 (Quantitative) |
|---|---|---|
| 정의 | 언어, 문자 등 비정형적 데이터 | 수치, 도형 등 정형적 데이터 |
| 특징 | 주관적, 해석 필요 | 객관적, 측정 가능 |
| 예시 | 고객 리뷰, 인터뷰 내용 | 매출액, 온도, 키, 몸무게 |
(2) 암묵지 vs 형식지
| 구분 | 암묵지 (Tacit Knowledge) | 형식지 (Explicit Knowledge) |
|---|---|---|
| 정의 | 학습과 경험을 통해 체화된 지식 | 문서나 매뉴얼로 외부에 표현된 지식 |
| 특징 | 전달이 어려움, 개인 내면에 존재 | 전달이 용이, 공유 가능 |
| 예시 | 장인의 기술, 직감 | 업무 매뉴얼, 교과서 |
노나카의 지식변환 프로세스 (SECI 모델)
| 변환 | 방향 | 설명 |
|---|---|---|
| 공통화 (Socialization) | 암묵지 → 암묵지 | 경험 공유, 도제식 학습 |
| 표출화 (Externalization) | 암묵지 → 형식지 | 내면의 지식을 문서/모델로 표현 |
| 연결화 (Combination) | 형식지 → 형식지 | 여러 형식지를 조합하여 새로운 지식 생성 |
| 내면화 (Internalization) | 형식지 → 암묵지 | 학습을 통해 개인의 노하우로 체화 |
1.2 데이터의 가치와 미래
1.2.1 데이터의 가치
- 비즈니스 가치: 의사결정 지원, 새로운 비즈니스 모델 창출
- 경제적 가치: 데이터 자체가 경제적 자산
- 사회적 가치: 공공데이터를 통한 사회 문제 해결
1.2.2 데이터 산업의 발전
| 시대 | 특징 |
|---|---|
| 1980년대 | 데이터베이스 시대, RDBMS 등장 |
| 1990년대 | 데이터웨어하우스, OLAP, BI 등장 |
| 2000년대 | 빅데이터 시대 시작, 웹 데이터 폭증 |
| 2010년대~ | 인공지능, 머신러닝, 딥러닝의 대중화 |
제2장. 데이터베이스의 이해
2.1 데이터베이스의 정의와 특성
2.1.1 데이터베이스의 정의
데이터베이스(Database)란 여러 사용자가 공유하여 사용할 수 있도록 통합·관리되는 데이터의 집합이다.
2.1.2 데이터베이스의 4가지 특성
| 특성 | 설명 |
|---|---|
| 통합된 데이터 (Integrated Data) | 동일한 데이터가 중복 최소화되어 통합 관리됨 |
| 저장된 데이터 (Stored Data) | 컴퓨터가 접근 가능한 매체에 저장됨 |
| 운영 데이터 (Operational Data) | 조직의 업무를 수행하는 데 반드시 필요한 데이터 |
| 공용 데이터 (Shared Data) | 여러 사용자가 서로 다른 목적으로 공유하는 데이터 |
시험 핵심: "통저운공" (통합, 저장, 운영, 공용)으로 암기!
2.1.3 데이터베이스의 활용
| 분야 | 활용 예시 |
|---|---|
| OLTP (Online Transaction Processing) | 실시간 트랜잭션 처리 (은행 이체, 주문 등) |
| OLAP (Online Analytical Processing) | 다차원 분석, 의사결정 지원 |
| CRM (Customer Relationship Management) | 고객 관계 관리, 고객 분석 |
| ERP (Enterprise Resource Planning) | 전사적 자원 관리 |
| BI (Business Intelligence) | 비즈니스 인텔리전스, 경영 분석 |
2.2 데이터베이스의 유형
2.2.1 관계형 데이터베이스 (RDBMS)
- 데이터를 2차원 테이블(행과 열) 구조로 관리
- SQL을 사용하여 데이터 조작
- 대표: Oracle, MySQL, PostgreSQL, MS SQL Server
2.2.2 NoSQL 데이터베이스
| 유형 | 설명 | 대표 제품 |
|---|---|---|
| Key-Value | 키-값 쌍으로 저장 | Redis, DynamoDB |
| Document | JSON/BSON 문서 형태로 저장 | MongoDB, CouchDB |
| Column-Family | 칼럼 패밀리 기반 저장 | HBase, Cassandra |
| Graph | 노드와 엣지(관계)로 저장 | Neo4j, OrientDB |
2.2.3 데이터웨어하우스 (DW)
의사결정 지원을 위해 다양한 운영 시스템에서 추출된 데이터를 통합·변환하여 저장하는 데이터베이스이다.
| 특성 | 설명 |
|---|---|
| 주제 지향적 (Subject-Oriented) | 특정 주제(고객, 매출 등) 중심으로 구성 |
| 통합적 (Integrated) | 여러 소스의 데이터를 일관된 형태로 통합 |
| 시계열적 (Time-Variant) | 시간에 따른 데이터 변화를 추적 |
| 비휘발적 (Non-Volatile) | 한 번 적재되면 변경되지 않음 (읽기 전용) |
2.2.4 ETL (Extract, Transform, Load)
| 단계 | 설명 |
|---|---|
| Extract | 다양한 소스 시스템에서 데이터 추출 |
| Transform | 데이터 정제, 변환, 통합 |
| Load | 데이터웨어하우스에 적재 |
제3장. 빅데이터의 이해
3.1 빅데이터의 정의
3.1.1 빅데이터란?
기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터 집합으로, 이로부터 가치를 추출하고 결과를 분석하는 기술을 포함한다.
3.1.2 빅데이터의 특성 (3V → 5V)
| 특성 | 설명 |
|---|---|
| Volume (규모) | 데이터의 크기가 기존과 비교할 수 없을 정도로 방대 |
| Variety (다양성) | 정형, 반정형, 비정형 등 다양한 형태의 데이터 |
| Velocity (속도) | 데이터의 생성·수집·처리 속도가 매우 빠름 (실시간) |
| Veracity (정확성) | 데이터의 품질과 신뢰성 |
| Value (가치) | 데이터로부터 의미 있는 가치를 추출 |
시험 핵심: 기본 3V(Volume, Variety, Velocity)는 반드시 암기! 확장된 4V, 5V도 출제된다.
3.1.3 빅데이터의 출현 배경
- 디지털 데이터의 폭발적 증가 (SNS, IoT, 모바일)
- 저장 비용의 하락
- 분석 기술의 발전 (하둡, 스파크 등)
- 데이터 기반 의사결정의 필요성 증가
3.2 빅데이터의 가치와 영향
3.2.1 빅데이터의 가치 창출 방식
| 방식 | 설명 | 예시 |
|---|---|---|
| 최적화 | 프로세스의 비효율을 분석하여 개선 | 물류 경로 최적화 |
| 예측 | 과거 데이터를 기반으로 미래 예측 | 수요 예측, 이탈 예측 |
| 개인화 | 개인 맞춤형 서비스 제공 | 추천 시스템 |
| 새로운 비즈니스 | 데이터를 기반으로 새로운 사업 창출 | 데이터 거래, 데이터 서비스 |
3.2.2 빅데이터의 위기 요인과 통제 방안
| 위기 요인 | 설명 | 통제 방안 |
|---|---|---|
| 사생활 침해 | 개인정보 수집·분석으로 프라이버시 위협 | 비식별화, 동의 기반 수집 |
| 책임 원칙 훼손 | 예측 기반 사전 개입의 윤리적 문제 | 투명성 확보, 결과 책임 |
| 데이터 오용 | 데이터의 잘못된 해석이나 활용 | 분석 윤리, 검증 체계 |
3.3 빅데이터 기술
3.3.1 빅데이터 처리 기술
| 기술 | 설명 |
|---|---|
| Hadoop | 대용량 데이터 분산 처리 프레임워크. HDFS(저장) + MapReduce(처리) |
| MapReduce | 대규모 데이터셋을 Map(분할)과 Reduce(집계) 단계로 병렬 처리 |
| HDFS | 하둡 분산 파일 시스템. 대용량 파일을 블록 단위로 분산 저장 |
| Spark | 인메모리 기반 빅데이터 처리 (MapReduce보다 빠름) |
| Kafka | 실시간 스트리밍 데이터 처리 플랫폼 |
3.3.2 빅데이터 분석 기법
| 기법 | 설명 |
|---|---|
| 텍스트 마이닝 | 비정형 텍스트에서 패턴과 의미를 추출 |
| 오피니언 마이닝 | 감정/의견을 분석 (긍정/부정/중립) |
| 소셜 네트워크 분석 | 사회적 관계망의 구조와 패턴 분석 |
| 군집 분석 | 유사한 특성을 가진 그룹으로 분류 |
| 웹 마이닝 | 웹 데이터에서 유용한 정보 추출 |
3.4 데이터 사이언스와 데이터 사이언티스트
3.4.1 데이터 사이언스
데이터로부터 의미 있는 정보와 지식을 추출하기 위한 학문으로, 통계학, 컴퓨터과학, 도메인 전문지식의 융합이다.
3.4.2 데이터 사이언티스트의 역량
| 역량 | 설명 |
|---|---|
| Hard Skill | 통계학, 프로그래밍(R/Python), 머신러닝, 데이터베이스 |
| Soft Skill | 커뮤니케이션, 스토리텔링, 비즈니스 이해, 호기심 |
| 도메인 지식 | 해당 업무 분야의 전문 지식 |
3.5 개인정보 보호
3.5.1 개인정보의 정의
살아있는 개인에 관한 정보로서, 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보를 말한다.
3.5.2 개인정보 비식별화 기법
| 기법 | 설명 | 예시 |
|---|---|---|
| 가명처리 (Pseudonymization) | 개인을 식별할 수 있는 값을 다른 값으로 대체 | 홍길동 → A001 |
| 총계처리 (Aggregation) | 개별 값 대신 총합, 평균 등 통계값으로 대체 | 나이 → 30대 |
| 데이터 삭제 (Data Reduction) | 식별 가능한 속성 자체를 삭제 | 주민번호 삭제 |
| 데이터 범주화 (Categorization) | 구체적 값을 범주로 변환 | 서울시 강남구 → 서울시 |
| 데이터 마스킹 (Masking) | 일부를 *로 치환 | 010-****-1234 |
연습문제
문제 1. DIKW 피라미드에서 "데이터를 가공하여 의미를 부여한 것"에 해당하는 단계는?
① 데이터(Data) ② 정보(Information) ③ 지식(Knowledge) ④ 지혜(Wisdom)
정답: ② 해설: 정보(Information)는 데이터를 가공·처리하여 특정 맥락에서 의미를 부여한 것이다.
문제 2. 데이터베이스의 특성에 해당하지 않는 것은?
① 통합된 데이터 ② 저장된 데이터 ③ 임시 데이터 ④ 공용 데이터
정답: ③ 해설: 데이터베이스의 4가지 특성은 통합된 데이터, 저장된 데이터, 운영 데이터, 공용 데이터이다. "임시 데이터"는 해당하지 않는다.
문제 3. 빅데이터의 3V에 해당하지 않는 것은?
① Volume ② Variety ③ Velocity ④ Visualization
정답: ④ 해설: 빅데이터의 3V는 Volume(규모), Variety(다양성), Velocity(속도)이다. Visualization은 포함되지 않는다.
문제 4. 노나카의 SECI 모델에서 암묵지를 형식지로 변환하는 단계는?
① 공통화 ② 표출화 ③ 연결화 ④ 내면화
정답: ② 해설: 표출화(Externalization)는 개인의 암묵지를 문서, 모델 등 형식지로 표현하는 과정이다.
문제 5. 데이터웨어하우스의 특성이 아닌 것은?
① 주제 지향적 ② 통합적 ③ 실시간 변경 가능 ④ 시계열적
정답: ③ 해설: 데이터웨어하우스는 비휘발적(Non-Volatile) 특성을 가지며, 한 번 적재된 데이터는 변경되지 않는다(읽기 전용).
문제 6. 다음 중 NoSQL 데이터베이스의 유형과 대표 제품이 올바르게 연결되지 않은 것은?
① Key-Value - Redis ② Document - MongoDB ③ Column-Family - Neo4j ④ Graph - Neo4j
정답: ③ 해설: Neo4j는 Graph DB이다. Column-Family의 대표 제품은 HBase, Cassandra이다.
문제 7. 개인정보 비식별화 기법 중 "홍길동 → A001"과 같이 식별 값을 다른 값으로 대체하는 기법은?
① 총계처리 ② 가명처리 ③ 데이터 마스킹 ④ 데이터 범주화
정답: ② 해설: 가명처리(Pseudonymization)는 개인을 식별할 수 있는 값을 다른 가명 값으로 대체하는 기법이다.
문제 8. Hadoop의 분산 파일 시스템의 명칭은?
① HDFS ② MapReduce ③ Spark ④ Kafka
정답: ① 해설: HDFS(Hadoop Distributed File System)는 하둡의 분산 파일 시스템으로, 대용량 파일을 블록 단위로 분산 저장한다.
문제 9. 데이터 사이언티스트에게 필요한 역량 중 "통계학, 프로그래밍, 머신러닝" 등은 어떤 역량에 해당하는가?
① Soft Skill ② Hard Skill ③ 도메인 지식 ④ 커뮤니케이션 역량
정답: ② 해설: Hard Skill은 기술적 역량으로 통계학, 프로그래밍(R/Python), 머신러닝, 데이터베이스 등이 해당된다.
문제 10. ETL 과정에서 데이터 정제, 변환, 통합이 이루어지는 단계는?
① Extract ② Transform ③ Load ④ Mining
정답: ② 해설: Transform 단계에서 추출된 데이터의 정제, 변환, 통합이 이루어진다.