ADsP 1과목 데이터이해 개념정리 2 빅데이터 데이터사이언스
2024년 8월 10일 시험을 앞두고
직접 공부할 겸 요약 정리 해보는 ADsP 요약 정리
같이 열심히 공부해서 한 번에 통과 해봅시다!
ADsP (데이터분석 준전문가) 란?
-
Advanced Data Analytics Semi-Professional
데이터 이해에 대한 기본 지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 직무를 수행하는 실무자를 말한다.
ADsP 1과목 데이터이해 개념정리 2 : 빅데이터
빅데이터 정의 : 기존 데이터보다 너무 방대하여 기존 방법으로는 수집, 처리가 어려운 정형 및 비정형 데이터를 의미함
-
-
빅데이터 특징
-
3V
규모 Volume – 데이터의 양 증가
형태 Veriety – 데이터 유형의 증가
속도 Velocity – 데이터 생성 속도 및 처리 속도 증가
4V (ROI관점)
Value 와 Veracity – 데이터 가치와 정확성 (5V)
-
-
빅데이터가 만드는 본질적인 변화
-
사전처리 -> 사후처리
표본조사 -> 전수조사
질 -> 양
인과관계 -> 상관관계
-
- 후-전-양-상
-
-
빅데이터 출현 배경
-
– 산업계 : 고객 데이터 증가 및 다양한 유형의 사건 증가 / 통신사고객, 은행고객, 사기범죄
– 학계 : 컴퓨터 공학, 인공지능학과 와 같이 데이터를 다루는 학문 증가 / 게놈프로젝트
– 관련 기술 발전 : 하드디스크 용량 증가, 클라우드 컴퓨팅 등장
-
-
클라우드 컴퓨팅
-
인터넷을 통해 가상의 컴퓨터를 제공받는 서비스 / AWS, IBM Cloud
개인, 기업이 보유한 하드웨어적 한계 -> 일정 비용 지불 후 초고사양 컴퓨터 원격 사용
-
-
빅데이터 기능
-
산업혁명의 석탄, 철 -> 혁명적 변화, 차세대로 넘어갈 수 있는 밑거름 제공
21세기의 원유 -> 새로운 범주의 산업을 형성, 새로운 시대의 에너지원
렌즈 -> 기존에 모르던 가치의 발견 / Ngram Viewer
플랫폼 -> 공동 활용의 목적으로 구축된 유무형의 구조물 / 카카오톡
-
-
빅데이터의 활용을 위한 3요소
-
데이터(자원) : 모든 것의 데이터화
기술 : 진화하는 알고리즘, 인공지능
인력 : 데이터 사이언티스트, 알고리즈미스트
ADsP 1과목 데이터이해 개념정리 2 : 데이터의 가치와 미래
-
-
데이터 가치 산정의 어려움
-
데이터의 활용방식 : 데이터 재사용, 재조합 가능, 언제/어디서/누가 활용할지 알 수 없음
새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 예측하기 힘듦
분석 기술의 발달 : 가치가 없던 데이터도 미래에 얼마나 큰 가치를 가져올지 예측 힘듦
데이터 수집 원가 : 데이터 가공/수집/사용 방법에 따라 비용 상이
-
-
빅데이터 활용
-
기업 : 소비자 행동패턴, 시장변동 예측, 신사업 발굴
정부 : 국가안위, 환경 탐색, 상황 분석, 미래대응 활용
개인 : 스마트한 라이프로의 변화
-
-
빅데이터 활용 기술 7가지
-
연관규칙학습 Association Rule Learning
: 상관 관계 분석 / 기저귀 구매자가 맥주도 같이 구매하는가?
유형분석 Classification Tree Analysis
: 군집화, 유형별로 분류 / 온라인 수강생들을 특성에 따라 분류
유전자 알고리즘 Genetic Algorithms
: 최적화 / 최대 시청률을 얻으려면 언제 어떤 프로그램을 방송해야 하는가?
기계학습 Machine Learning
: 데이터 예측 / 넷플릭스 추천 시스템
회귀분석 Regression Analysis
: 선형 함수 분석 / 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
감정분석 Sentiment Analysis
: 글쓴이의 감정분석 / 고객리뷰를 통해 감정 분석
소셜 네트워크 분석 Social Network Analysis
: 사회 관계망 분석 / 사람들간 온라인 관계파악
-
-
위기요인과 통제 요인
-
사생활 침해
: 노출된 개인정보에 의해 범죄의 타겟이 됨 / 스팸 문자
-> 제공자 동의에서 개인정보 사용자 책임으로
책임 원칙의 훼손
: 빅데이터 분석결과에 따라 잠재적 가능성으로 조치 / 특정 군집에 속한다는 이유로 신용 대출 거절
-> 결과 기반 책임 원칙 고수
데이터 운영
: 빅데이터에 지나치게 의존하여 잘못된 결과를 검증없이 수용
-> 알고리즘 분석 접근 허용, 전문가를 통해 알고리즘 타당성 입증
*알고리즈미스트 Algorithmist
빅데이터 분석을 활용된 알고리즘 이해 분석. 부당하게 피해 받는 것을 막는 역할
ADsP 1과목 데이터이해 개념정리 2 : 전략적인사이트와 데이터사이언스
-
-
전략적 인사이트
-
– 기업의 데이터 분석의 목적은 다른 기업의 경쟁 우위를 차지하기 위함
– 본질을 바라봐야 하며 쓸모 없는 분석하지 않아야 함
ex)
아메리칸 항공 : 일반적 데이터 분석으로 경쟁 우위 하락
사우스웨스트 항공 : 전략적 인사이트로 높은 경쟁력 선점
-
-
데이터 사이언스
-
– 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문
– 데이터로부터 의미있는 정보를 추출하는 학문
– 데이터 유형을 막론하고 다양한 유형의 모든 데이터가 대상
– 데이터 마이닝의 결과를 통해 전략적 인사이트 도출
-> 효과적인 전달, 모든 업무를 포함
-
-
데이터사이언스 구성요소
-
– 수학, 통계학적 지식 : 수학, 확률모델, 머신러닝, 분석학, 패턴인식과 학습, 불확실성 모델링 등
– IT 지식 : 시그널 프로레싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨터
– 비즈니스 지식 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
-
-
데이터 사이언티스트
-
하드 스킬
– 빅데이터에 대한 이론적 지식 / 관련 기법 및 방법론
– 분석 기술에 대한 숙련 / 최적의 분석 설계 및 노하우 축적
– 빅데이터에 대한 이론적 지식 (관련 기법 및 방법론)
소프트 스킬
– 통찰력 있는 분석 / 창의적 사고, 호기심, 논리적 비판
– 설득력 있는 전달 / 스토리텔링, 시각화
– 다분야간 협력 / 커뮤니케이션
-
-
과학과 인문이 교차로비지니스적 감각 + 소프트한 스킬 필요
- *외부 환경적 측면에서 바라본 인문학 열풍의 이유
외부 환경 변화 내용 컨버전스 → 인버전스 단순 세계화 → 복잡한 세계화 생산 → 서비스 제품 생산 → 서비스 생산 → 시장창조 기술 경쟁 → 무형 자산 (플랫폼)의 경쟁
-
-
-
가치 패러다임의 단계별 변화
-
– 과거 : 아날로그 세상을 어떻게 효과적으로 디지털화 하는지가 과거의 가치 창출 원천
– 현재 : 디지털화된 정보과 대상을 서로 효과적이게 연결하여 효율정인 정보를 제공하는지가 성공 요인
– 미래 : 복잡한 연결을 얼마나 효과적이고 믿을수 있게 관리하는지의 이슈
-
-
데이터사이언스의 한계와 인문학
-
데이터 사이언스의 한계
– 정량적 데이터 분석이라도 모든 분석 가정에 근거함 → 변하는 외부요인 반영안됨
– 결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론이 발생함
– 데이터 분석은 완벽하진 않지만 정보가 없는 직관적 판단보다는 효과적
데이터 사이언스에게 요구되는 인문학
– 같은 데이터 분석 기법 = 같은 결과
– 단, 개인에 따라 결과의 해석은 다름. 즉, 인간의 개입은 필수적임
ADsP 1과목 데이터이해 개념정리 2
요약본 ↓↓↓



답글 남기기