ADsP 1과목 데이터이해 개념정리 1 빅데이터 데이터사이언스
2024년 8월 10일 시험을 앞두고
직접 공부할 겸 요약 정리 해보는 ADsP 요약 정리
같이 열심히 공부해서 한 번에 통과 해봅시다!
ADsP (데이터분석 준전문가) 란?
-
Advanced Data Analytics Semi-Professional
데이터 이해에 대한 기본 지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 직무를 수행하는 실무자를 말한다.
ADsP 1과목 데이터이해 개념정리 : 데이터 이해
-
-
데이터 특성
- 존재적 특성 : 있는 그대로 가공 되지 않은 객관적 사실
- 당위적 특성 : 예측, 추론, 추정, 전망을 통해 정보를 얻게 함
-
-
-
데이터 유형
- 정성적 데이터 : 양으로 표현 불가한 질적 자료 / 언어, 문자, 그림 등
- 정량적 데이터 : 기준이 명확 하고 양으로 표현 가능한 자료 / 수치, 도형, 기호 등
-
위 데이터가 집합 또는 형태를 이루면 아래와 같은 데이터가 됨.
정형 데이터 : 정형화된 틀이 있음. 연산 가능 / CVS, 엑셀 스프레드시트, DBMS 등
반정형 데이터 : 형태는 있으나 연산 불가능 / XML, HTML, JSON, 센서데이터 등
비정형 데이터 : 정형화된 틀이 없음. 연산 불가능 / 댓글, 영상, 음성 등
-
-
암묵지 VS 형식지
- 암묵지 : 경험을 통해 개인에게 습득되는 지식으로 지식의 전달 어려움 / 공통화, 내면화 단계
- 형식지 : 메뉴얼, 서적과 같이 외부로 표출된 지식으로 지식 전달이 용이함 / 표출화, 연결화 단계
-
공통화 (Socialization) : 암묵지가 형식지로 공통화 될 수 있음
표출화 (Externlization) : 공통화를 거치려면 암묵지는 표출화 되어야 함
연결화 (Combination) : 형식지는 다시 개인의 지식(암묵지)로 연결 및 습득되는 연결화 됨
내면화 (Internalization) : 연결화를 거치려면 형식지는 개인에게 내면화 되어야 함
-
-
DIKW 피라미드
- Data → Information → Knowledge → Wisdom
-
데이터(data) : 객관적인 사실 / 사과를 a는 100원 b는 200원에 판매한다
정보(information) : 데이터의 가공 및 처리, 데이터간 연관 관계를 통해 의미가 도출 됨 / a사과가 더 저렴하다
지식(knowledge) : 유의미한 정보로 분류하고 경험을 결합해 고유의 지식으로 내재화 / a를 사야겠다
지혜(wisdom) : 축적된 지식과 새로 얻은 지식을 결합하여 창출된 창의적 산물 (추측, 예측) / a의 다른 과일도 저렴할 것이다
-
-
데이터베이스(DB) 특징
-
[일반적인 특징]
통합된 데이터 : 동일한 내용 중복이 없음
저장된 데이터 : 컴퓨터가 접근 가능한 저장 매체에 저장
공용 데이터 : 여러 사용자가 공유 가능
변화하는 데이터 : 수정,추가,삭제를 통해 항상 정확하고 최신 데이터 유지
[다양한 측면에서의 특성]
정보의 축적 및 전달 측면 : 대량의 정보를 읽고 쓸 수 있으며, 온라인에서 검색 가능
정보 이용 측면 : 이용자의 요구에 따라 다양한 정보를 신속히 획득, 경제적으로 찾기 가능
정보 관리 측면 : 일정한 질서 및 구조에 따라 정리, 저장, 검색, 관리 가능
정보 기술 발전 측면 : DB는 네트워크 기술 등의 발전을 견인할 수 있음
경제, 산업적 측면 : 다양한 정보 제공, 이요을 통해 경제 산업 효율성 제고, 국민 편의 증진 가능
[트랜잭션에 따른 특성]
일관성 : 트랜잭션 결과는 항상 일관성 있어야 함
원자성 : 트랜잭션이 DB에 모두 적용되거나 모두 적용되지 않아야 함
고립성 : 하나의 트랜잭션이 다른 트랜잭션 와중에 영향을 주지 않아야 함
지속성 : 트랜잭션 성공 후 그 결과는 영구적이어야 함
-
-
데이터베이스 활용
-
OLTP (Online Transaction Processing)
– 온라인 거래 처리
– 데이터 구조 복잡 (실시간 update)
– 데이터 갱신 순간적
– 트랜잭션 중심 (재고관리)
– 사용빈도 높고 정적인 업무 형태(정해진 방법)
– 단순 사용자
OLAP (Online Analytical Processing)
– 온라인 분석 처리
– 데이터 구조 단순 (가공/정제된 데이터)
– 데이터 갱신 주기적
– 주제 중심 (판매 늘었는지? 줄었는지?)
– 사용빈도 보통, 동적인 업무 형태
– 전문가 사용
-
-
기업 데이터베이스 활용
-
제조부문
ERP ( Enterprise Resource Planning ) : 기업 경영의 효율화
CRM ( Customer Relationship Management ) : 고객 관리, 고객 중심
BI ( Business Intelligence ) : 의사 결정에 활용, 리포트 중심의 도구
RTE ( Real Time Enterprise ) : 신속한 대응, 기업 업무 프로세스 정보를 실시간 통합 전달
유통부문
SCM ( Supply Chain Management ) : 공급망 단계를 최적화
KMS ( Knowledge Management System ) : 기업이 보유한 모든 지식 통합 문제 해결 능력 향상
.
금융부문
EAI(Enterprise Application Ientegration) : 중앙시스템 / 서비스간 연결루트 간소화 가능
-
-
데이터베이스 종류
-
관계형 데이터베이스 (RDB)
– 오라클 , MySQL, MARIA DB, SQL server
– 행과 열 형태 (엑셀 유사 모양)
비관계형 데이터베이스
– HBASE, Mongo DB, Dynamo DB, Cassandra, ElaticSearch
– 대용량 데이터 분석 분산처리
– NoSQL : 기존 RDB를 보완 및 개선 / 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이
객체지향 DBMS
– 비정형 데이터라도 사용자가 원하는 방식에 따라 표현이 가능한 DBMS
– 멀티미디어, 텍스트 등 복잡한 데이터 구조를 표현 및 관리하는 DBMS
계층형 DBMS
네트워크형 DBMS
분산형 DBMS
-
-
SQL
-
– 데이터 정의언어(DDL) – 테이블 관리(CREATE, RENAME, ALTER(속성변경), DROP)
– 데이터 조작언어(DML) – 테이블저장데이터 관리(SELECT, UPDATE, INSERT, DELETE)
-
-
데이터 웨어하우스
-
기업 내 의사 결정 지원을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간
– 주제 지향적
– 통합성
– 시계열성
– 비휘발성
기업 내부 또는 외부로부터 데이터를 추출(Extract), 변환(Transform), 및 적재(Load) 하여 저장함 (ETL)
*데이터 레이크 : 데이터들을 그대로 저장하는 곳 / ex 공장
*데이터 웨어하우스 : 데이터 레이크에 있는 데이터들을 추출, 변환, 적재, 저장하여 필요한 부서에 제공하기 쉽게 만들어 주는 곳 / ex도매점
*데이터 마트 : 실제 데이터를 사용할 사람들이 데이터 마트를 통하여 데이터에 접근 / ex 소매점
ADsP 1과목 데이터이해 개념정리 1 빅데이터 데이터사이언스 요약본
요약본 ↓↓↓