愛林

ADsP 2과목 정리 본문

License/AdsP

ADsP 2과목 정리

愛林 2022. 10. 17. 15:34
반응형

2과목 정리


■ 분석 기획 방향성 도출

 

 

데이터 사이언티스트의 역량 : 수학 / 통계학적 지식, 정보기술(IT, 통신기술, 해킹) , 비즈니스 전문성

 

 

■ 분석 기획

 

실제 분석을 수행에 앞서서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게

관리할 수 있는 방안을 사전에 계획하는 작업이다.

 

 

1) 분석 대상과 방법

 

분석은 대상(What) 과 방법(How) 에 따라서 4가지로 나누어진다.

분석의 대상, 방법을 둘 다 알 때 - > Optimization 최적화

분석의 대상 (What) 은 모르지만 방법(How)는 알 때 -> Insight 통찰

분석의 대상은 알지만 방법(How) 은 알 때 -> Solution 솔루션

분석의 대상, 방법을 둘 다 모를 때 -> Discovery 발견

 

 

 

2) 목표 시점별 분석 기획 방안

 

  • 당면한 과제를 빠르게 해결하는 "과제 중심적 접근 방식 "
    Speed & Test, Quick & Win, Problem Solving

  • 지속적인 분석 내재화를 위한 "장기적 마스터 플랜 형식"
    Accuracy & Deploy, Long term view, Problem Definittion

 

 

3) 분석 기획 시 고려 사항

 

  • 사용 가능한 데이터
  • 적절한 활용 방안과 유즈케이스(Use Case) 탐색
  • 장애요소들에 대한 사전계획 수립
  • 정형 데이터 : 데이터 자체로 분석이 가능한 것. Transaction , ERP, DB정제 Data
  • 반정형 데이터 : 분석은 가능하나 메타정보를 해석해야 한다. 센서 중심 스트리밍 머신 데이터
  • 비정형 데이터 : 데이터 자체로 분석이 불가능하다. 보고서, 소셜 미디어 데이터, e-mail

 


■ 분석 방법론

 

절차(Procedures) ,  방법(Methods), 도구화 기법(Tools & Technique), 템플릿과 산출물 (Templetes & Outputs)

으로 구성된다.

 

 

1) 합리적 의사결정을 가로막는요인

  • 고정관념(StereoType)
  • 편향된 생각(Bias)
  • 프레이밍 효과(Framing) : 동일한 사건이나 상황에도 개인의 판단이나 선택이 달라질 수 있는 현상

 

 

2) 방법론 적용 업무의 특성에 따른 모델

 

  1. 폭포수 모델
    단계를 순차적으로 진행하는 하향식 진행 방법

  2. 프로토타입 모델 (prototype model)
    고객의 완벽한 요구분석을 해결하기 위해 일부분을 우선 개발하여 제공.
    시험 사용 후 그 결과를 통한 개선 작업을 진행하는 상향식 진행 방법

  3. 나선형 모델 (Spiral model)
    반복을 통한  점진적 개발. 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지
    못한 경우, 복잡도가 상승한다. 점증적인 방법

 


■ KDD 분석 방법론

 

 

Fayyad 가 정리한 데이터 마이닝 프로세스이다.

총 5개의 단계로 이루어져 있으며,

 

Selection (선택) - > Proprocessing (전처리) -> Transformation (변환) -> Data Mining (데이터 마이닝) 

-> Interpretation / Evaluation (해석 / 평가)

 

로 이루어져있다.

 

  1. Selection (선택)
    분석 대상에 대한  비즈니스 도메인 이해와 프로젝트 목표 설정.
    데이터마이닝에 필요한 목표 데이터를 구성해서 분석에 활용한다.

  2. Preprocessing (전처리)
    데이터셋의 노이즈, 이상치, 결측치를 식별한다. 데이터를 Cleaning 하는 과정.
    이 전처리 단게에서 추가 요구되는 데이터가 필요한 경우, 데이터 선택 프로세스를 재실행한다.

  3. Transformation (데이터 변환)
    데이터 전처리 과정을 통해 정제된 데이터를 분석 목적에 맞게 변수를 생성하고,
    차원 축소 등을 진행한다. train & test 데이터셋을 분리하는 과정이 여기 해당한다.

  4. Data Mining (데이터 마이닝)
    학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법 선택하여 작업 실행.
    필요에 따라 데이터 전처리나 변환을 추가로 실시한다.

  5. Interpretation / Evaluation (데이터 마이닝 결과 평가)
    데이터 마이닝 결과에 대한 해석과 평가, 분석 일치성 평가.
    데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안을 마련한다.

 

 


■ CRISP - DM 분석 방법론

 

5개의 주요 업체들이 주도하여 만든 분석 방법론. 계층적 프로세스 모델로서, 4개 레벨로 구성된다.

하향식 아니고, 왔다갔다 가능한 계층적 프로세스 모델이다.

총 6개의 프로세스로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계간 피드백을 진행한다.

 

Business Understanding (업무이해) - > Data Understanding (데이터 이해) -> Data Preparation (데이터 준비)
-> Modeling (모델링) -> Evaluation (평가) -> Deployment (전개)

 

 

  1. 업무이해 (Business Understanding)
    도메인 지식 -> 데이터 분석을 위한 문제를 정의
    업무목적 파악 -> 상황 파악 -> 데이터 마이닝을 위한 목표 설정 -> 프로젝트 계획 수립
  2. 데이터 이해 (Data Understanding)
    데이터 수집 & 이해 & 인사이트 발견
    데이터를 탐색하고 데이터의 품질을 확인한다. 데이터 셋을 선택하고, 전처리를 한다.
    KDD의 데이터 전처리(Preprocessing) 과 같은 단계.

  3. 데이터 준비 (Data Preparation)
    분석기법에 적합한 데이터셋을 편성한다.
    KDD의 데이터 변환(Transformation) 과 같은 단계. 데이터셋을 선택, 정제, 통합, 포맷팅한다.

  4. 모델링 (Modeling)
    모델링 기법 선택, 모델링 작성, 모델 평가, 다양한 모델링 기법을 적용하고 파라미터를 최적화한다.

  5. 평가 (Evaluation)
    모델이 프로젝트 모델에 부합하는 지를 평가한다.

  6. 전개 (Deployment)
    모델을 실 업무에 투입할 계획을 수립하고, 유지보수 계획을 마련한다.

 


■ 빅데이터 분석 방법론

 

 

5단계로 이루어져 있다.

 

분석기획 -> 데이터준비 -> 데이터분석 -> 시스템구현 -> 평가 및 전개

 

로 구성되어 있다.

 

 

1) 분석 기획

  1. 비즈니스 이해 및 프로젝트 범위를 설정한다.
    이 과정에서 , SOW (Statement of Work) 를 작성한다.

  2. 프로젝트 정의 및 계획을 수립한다.
    데이터 분석 프로젝트를 정의하고, 수행 계획을 수립한다. (모델 평가 계획 수립)
    WBS (Work Breakdown Structure) 를 작성한다.

  3. 프로젝트 위험 계획을 수립한다.
    위험을 식별하고, 대응 계획을 수립한다. 회피, 전이, 완화, 수용

 

2) 데이터 준비

  1. 필요 데이터를 정의한다.
    (데이터정의 , ERD작성, 데이터 정의서 작성, 데이터 획득 방안 수립)

  2. 데이터 스토어를 설계한다.
    정형, 비정혇 데이터 스토어를 설계한다.

  3. 데이터 수집 및 정합성을 점검한다.
    ㄷ데이터 수집 및 저장, 데이터 정합성 검정

 

3) 데이터 분석

  1. 분석용 데이터 준비 
    비즈니스 룰 확인, 분석용 데이터셋을 준비한다.

  2. 텍스트 분석
    텍스트 데이터 확인 및 추출, 텍스트 데이터 분석

  3. 탐색적 분석
    EDA, 데이터 시각화

  4. 모델링

  5. 모델 평가 및 검증

 


■ 분석 과제 발굴

 

상향식, 하향식이 상호보완 관계에 있을 때 최적의 의사결정이 가능

-> 디자인 씽킹 (Design Thinking)

 

 

■ 하향식 접근법 (Top Down Approach)(★)

 

현황분석을 통해서 문제를 탐색, 해당 문제 정의, 해결방안 탐색, 타당성을 평가한다.

 

 

1) 문제 탐색

전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제 도출 & 식별

과제 발굴 단게에서는 문제 해결에서 나오는 가치에 중점을 두는 것이 중요하다.

 

비즈니스 모델 기반 문제 탐색 = 비즈니스 모델 캔버스

글씨 너무 대충 썼는데요

업무, 제품, 고객, 규제&감사, 지원 인프라 5가지의 영역으로 구분한다.

 

분석기회의 범위를 확장한다.

대체재, 경쟁사, 신규 진입자, 채널, 영향자들

 

  1. 거시적 관점의 메가 트렌드
    Social , Technological, Econimic, Environmental, Political 
    STEEP 

  2. 경쟁자 확대 관점
    경쟁자 뿐만 아니라 대체재, 신규 진입자까지 관점을 확대하여 위협이 될 수 있는 상황에 대한
    분석 기회 발굴의 폭을 넓힌다.

  3. 시장의 니즈 탐색 관점
    고객 & 고객과 접촉하는 채널, 기업의 의사 결정과 구매에 영향을 끼치는 영향자들 (주주, 투자자들) 에 대한
    폭 넓은 관좀을 바탕으로 분석 기회를 탐색한다.

  4. 역량의 재해석
    내부 역량 & 파트너 네트워크 영역까지 폭넓은 분석 기회를 탐색한다.
    외부 참조 모델 기반 문제 탐색, 분석 유즈 케이스 활용

 

 

2) 문제 정의 (Probelm Definition)
식별된 비즈니스 문제를 데이터 문제로 변환한다.

 

 

3) 문제 해결 방안 탐색 (Solution Search)
데이터 분석 문제 해결을 위한 다양한 방안을 모색한다.

 

 

4) 타당성 검토

  • 경제적 타당성 - > 비용 대비 편익 분석
  • 데이터 및 기술적 타당성

 

■ 상향식 접근법 (Top Down Approach)

 

사물을 있는 그대로 인식하는 'What' 관점에서 새로운 문제를 탐색한다.

비지도 학습을 통해 수행된다.

예시로 프로토타이핑 접근법이 있다.

 

 

■ 분석 프로젝트의 특징

영역별 관리가 수행되어야 한다.

5가지 주요 특성으로 Data Size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision

이 있다.

 

 


■ 마스터 플랜 수립 프레임 워크

 

■ 분석 마스터 플랜

 

일반적인 ISP 방법론을 활용하되, 데이터 분석 기획의 특징을  고려하여 수행하고, 기업에서 필요한
데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 정하고, 단기 및 중.장기로 나누어 계획을 수립한다.

 

※ ISP (Information Strategy Planning, 정보전략계획)

정보 기술 또는 정보를 전략적으로 확인하기 위해서 조직 내,외부 환경을 분석하여

기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등

중장기 마스터 플랜 수립 절차이다.

주요 정보를 포착하고 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며,
이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합추진 계획

 

과제 우선순위 평가

ADsP 데이터 분석 준전문가 . 데이터 에듀 저자 윤종식

 

 


■ 분석 거버넌스 체계 수립

기업 내 분석 관리 체계를 수립한다.

거버넌스 체계 내의 구성요소에는 비용 & 예산이 없다는 것을 기억하자.

 

1) 데이터 분석 수준 진단

  • 분석 준비도 (Readiness) : 분석업무, 분석 데이터, 분석 기법 ...
  • 분석 성숙도 (Matunity) : 도입, 활용, IT, 비즈니스 ...

이에 따라 정착형, 확산형, 준비형, 도입형으로 나누어진다.

 

2) 분석 지원 인프라 방안 수립

 

3) 데이터 거버넌스 체계 수립

데이터 거버넌스란 전사 차원의 모든 데이터에 대해서 정책 및 지침, 표준화, 운영 조직 및 책임 등의

관리 체계를 수립하고, 운영을 위한 프레임 워크 및 저장소를 구축하는  것을 말한다.

데이터 관리 체계를 위한 워크 플로우, 데이터 사전 영향평가가 필요하다.

메타 데이터, 마스터 데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상이다.

  • 데이터 표준화 : 데이터 표준 용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 데이터 관리체계 : 메타 데이터 & 데이터 사전 관리 규칙 수립
  • 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원 저장소 구성
  • 표준화 활동 : 데이터 거버넌스 체계 구축 후 주기적 점검 & 모니터링
    사전 영향 평가도 수행해야 한다.

구성 요소로는 원칙, 조직, 프로세스가 있다.

 

4) 데이터 조직 및 인력 방안 수집

전문 분석 조직이 필요하다.

데이터 분석을 위한 3가지 조직 구조

  • 집중구조 : 전사 분석업무를 별도의 분석 전담 조직에서 담당한다. (DSCoE)
    전략적 중요도에 따라서 분석조직이 우선순위를 정해서 진행이 가능하며,
    현업 업무부서의 분석업무와 이중화/이원화 가능성이 높다.

  • 기능구조 :  일반적인 분석 수행구조. 별도 분석조직이 없고 해당 업무 부서에서 분석을 수행.
    전사적 핵심분석이 어렵고 과거 실적에 국한된 분석 수행 가능성이 높다.

  • 분산구조 : 분석조직 인력들을 현업부서로 직접 배치하여 분석업무를 수행한다.
    전사차원의 우선순위로 수행하며 신속한 Action 가능.
    부서 분석업무와 역할 분담을 명확하게 해야한다. -> 업무과다의 가능성이 높음.

 

 

 

 

+

능력 성숙도 통합 모델 (CMMI)

소프트웨어 개발 및 전산장비 운영 업체들의 업무능력 및 조직의 성숙도를 평가하기 위한 모델

 

+

빅데이터 거버넌스의 특징

  • 기업이 가진 과거 및 현재의 모든 데이터를 분석하여 비즈니스 인사이트를 찾는 노력은 비용 면에서
    효율적이지 못하다 - > 분석 대상 및 목적을 명확하게 정의하고, 필요한 데이터를 수집, 분석하여
    점진적으로 확대해 나가는 것이 좋다.
  • 빅데이터 분석에서 품질관리도 중요하지만, 데이터 수명주기 관리방안을 수립하지 않으면
    데이터 가용성 및 관리비용 증대 문제에 직면할 수 있다.
  • ERD는 운영 중인 데이터베이스와 일치하기 위해서 계속해서 변경사항을 관리해야 한다.
  • 산업 분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성한다.
  • 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분서 조직 및 인력에 대해서 지속적인 교육과
    훈련을 실시한다.
  • 개인정보보호 및 보안에 대한 방안을 마련해야 한다.

 

 

 

 

 

 

'License > AdsP' 카테고리의 다른 글

35회 ADsP 합격 후기  (3) 2022.11.22
ADsP 3과목 정리 (2)  (2) 2022.10.21
ADsP 3과목 정리 (1)  (0) 2022.10.19
ADsP 1과목 정리  (0) 2022.10.17
Comments