愛林

ADsP 1과목 정리 본문

License/AdsP

ADsP 1과목 정리

愛林 2022. 10. 17. 11:42
반응형

 

1과목 정리


 

■ 데이터와 정보

 

 

1) 데이터의 유형

  • 정성적 데이터 : 언어, 문자 데이터. 저장&검색&분석에 많은 비용이 소모된다.
  • 정량적 데이터 : 수치, 도형, 기호 데이터. 자체로 데이터 분석을 할 수 있으며 정형화되어있어 분석에 비용 소모 ↓

 

 

2) 지식 경영의 핵심 이슈

  • 암묵지 : 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
  • 형식지 : 문서, 매뉴얼 등 형상화 된 지식 (암묵지를 문서화, 형식화시키면 형식지가 된다. 표출화시킨다고 함)
  • 공통화 : 암묵지를 다른 사람에게 알려주는 것. 암묵적 노하우를 다른사람에게 알려준다.
  • 표출화 : 암묵적 지식 노하우를 형식화시켜 형식지로 만드는 것.
  • 연결화 : 책이나 교본 (형식) 에 자신이 알고 있는 지식(형식 + 형식) 추가
  • 내면화 : 만들어진 형식지를 보고 다른 직원들이 암묵지로 체득하는 것

 

 

3) DIKW

  • Data 데이터 : 객관적 사실 (Ex : A는 200원 & B는 400원)
  • Information 정보 : Data가 가공, 처리된 것. 의미가 도출된 것. (A보다 B가 더 비싸다.)
  • Knowledge 지식 : 정보를 통해 도출한 결과물. 예측한 것 (A를 사는 게 낫겠다.)
  • Wisdom 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 예측, 아이디어. (다른 물건들도  B보다 A 가 더 싸지 않을까?)

 


 

■ 데이터베이스의 정의 & 특징

 

 

1) 데이터 베이스의 일반적인 특징 (통 저 공 변)

 

  1. 통합된 데이터 : 동일한 데이터가 중복되어 있지 않은 것.
  2. 저장된 데이터 : 컴퓨터가 저장 가능한 매체에 저장되어 있는 것.
  3. 공용 데이터 : 여러 사용자가 공용으로 데이터를 이용하는 것..
  4. 변화 데이터 : 새로운 데이터의 삽입, 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다.

 

 

2) 데이터 베이스의 다양한 측면에서의 특징

 

  • 정보의 축적 및 전달 측면
  • 정보이용측면 : 다양한 정보를 신속하게 획득한다.
  • 정보관리측면 : 추가 & 갱신에 용이하다.
  • 정보기술발전측면
  • 경제 & 산업 측면

 

 

3) DBMS , RDBMS, ODBMS

 

  1. DBMS : 데이터 베이스를 관리해주는 소프트웨어. 데이터베이스 관리 시스템 Data Base Management System
  2. RDBMS : 관계형 데이터 베이스 관리 시스템. MySQL , Oracle Database 가 여기에 해당한다.
  3. ODBMS : 객체 지향 데이터 베이스 관리 시스템. 복잡한 데이터 구조 표현 & 관리가 가능하다.
    상위 계층이 하위계층에게 전수해주는 시스템을 가지고 있다.

 

 


 

■ 데이터베이스의 활용

 

 

1. 1980년대 기업 내부 데이터 베이스

 

  • OLTP (On-line Transaction Processing) 
    호스트 컴퓨터가 데이터 베이스를 엑세스하고, 바로 처리 결과를 내보내는 형태. Transaction 형태.
    데이터를 수시로 갱신하는 갱신위주의 형태이다.

  • OLAP (On-line Analytical Processing)
    정보 위주 분석 처리. 다양한 비즈니스 관점에서 쉽고 빠르게 정보를 얻을 수 있게 해주는 기술이다.
    데이터를  조회하는 역할 위주이며, 다차원 데이터이다.

 

 

2. 2000년대 기업 내부 데이터 베이스

 

  • CRM (Customer Relationship Management)
    고객 관계 관리. 기업이 고객과 관련된 내.외부 자료를 분석, 통합하여 고객중심자원을 극대화하고,
    이를 고객 특성에 맞게 마케팅 활동을 지원, 계획, 평가한다. 
    고객 데이터를 세분화함으로서 고객을 적극적으로 관리하고, 유도한다.

  • SCM (Supply Chain Management)
    공급망 관리. 기업에서 모든 공급망 단계를 최적화하여 수요자가 원하는 제품을 시간과 장소에 제공한다.

 

+

 

  • 데이터 웨어하우스 (Data Warehouse) 
    기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간.
    통합, 시계열성, 주제 지향, 비소멸적이다.

  • 데이터 마트 (Data Mart)
    전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모의 데이터 웨어하우스.

  • 데이터 레이크 (Data Lake)
    전사적으로 쉽게 인사이트를 공유하기 위해 여러 사일로 대신 하나의 데이터 소스를 추구한다.
    별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트를 데이터 레이크라고 한다.
    2017년 새롭게 등장한 트랜드가 아니지만, 이를 적절히 관리해 운영하는 첫 해는 2017이었다.

 

 


 

■ 분야별 데이터베이스

 

1) 제조부문

 

  • ERP (Enterprise Resouce Planning)
    인사, 재무, 생산 등 기업의 전 부문에 걸쳐서 독립적으로 운영되던 시스템의 경영자원을 하나의 통합 시스템으로
    재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다.

  • BI (Business Intelligence) 
    비즈니스 인텔리전스란 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는
    일련의 프로세스를 말한다. 하나의 특정 비즈니스 질문에 답하도록 설계되어있으며, Report 단위이다.

  • BA (Business Analytics)
    BI의 진보. 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법.
    성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석기법이다.
  • CRM (Customer Relationship Management)

  • RTE (Real - Time Enterprise)
    회사 전 부문의 데이터를 하나로 통합함으로써 경영자의 빠른 의사결정을 이끌어내려는 목적에서 만들어졌으며
    기업활동이 글로벌화되고 기술의 발전으로 제품 수명이 짧아지는 현실에 대응되고 있다.

 

 

2) 제조부문

 

  • EAI (Enterprise Application Intergration)
  • EDW (Enterprise Data Warehouse)
  • 블록체인 (Block Chain) : 거래내역을 모두에게 공유

 

 

3) 유통부문

 

  • KMS (Knowledge Management System)
    지식관리시스템을 의미하며, 기업경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
  • RFID (RF, Radio Frequency)
    주파수를 이용해 ID 를 식별하는 SYSTEM 으로 일명 전자태그로 불린다.
    전파를 이용해 먼 거리에서 정보를 인식하는 기술로 적용대상에 RFID 칩을 부착한 후 리더기를 통해
    정보를 인식한다.

 

 


 

■ 데이터의 가치 & 미래

 

 

1) 빅데이터의 정의

 

3V = Volume (양), Variety (다양성), Velocity (속도)

+ Value (가치) = 4V

 

빅데이터의 획기적인 발전은 클라우드 컴퓨팅을 통해서 비약적으로 발전했다.

 

 

 

2) 빅데이터의 비유

 

  1. 석탄, 철 : 제조업 뿐만 아니라 생산성을 끌어올려 사회, 경제, 문화 전반에서 혁명적인 변화를 기대한다.
  2. 21세기 원유 : 생산성을 향상시키고 새로운범주의 산업을 형성한다.
  3. 렌즈 : 데이터가 산업 발전에 영향을 준다. 구글의 Ngram Viewer
  4. 플랫폼 : 공용활용의 목적으로 구축된 유/무형의 구조물이다. 플랫폼 역할을 한다.
    FaceBook.. API 를 공개 - > 플랫폼

 

 

 

3) 본질적 변화

 

  • 사전처리 - > 사후처리
  • 표본조사 -> 전수조사
  • 질 -> 양
  • 인과관계 -> 상관관계

 

 

 

4) 빅데이터의 가치 선정이 어려운 이유

 

  1. 데이터 활용 방식
    데이터 활용 방식이 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를
    언제, 어디서, 누가 활용할 지 알 수 없게 되었다.

  2. 새로운 가치 창출
    데이터가 '기존에 없던 새로운 가치' 를 창출함에 따라 그 가치 선정이 어려워졌다.

  3. 분석 기술 발전
    분석 기술 발전에 따라 현재는 가치가 없더라도 추후에 새로운 분석기법이 등장한다면
    거대한 가치를 지닌 데이터가 될 수 있다.

 

 

 

5) 빅데이터 활용 기본 테크닉

 

  • 연관규칙
    우유 구매자가 기저귀도 같이 구매하는가? 등의 연관성을 찾는다.

  • 유형분석
    분류. 사용자는 어떤 특성의 집단에 속하는가?

  • 유전자 알고리즘
    최적화, 돌연변이. 최적의 시청률, 어디에 배치를 해야 최적의 입지인가?

  • 기계학습
    훈련데이터를 바탕으로 학습

  • 회귀분석
    관계를 파악해서 선형관계를 찾는다.

  • 감정분석
    서비스를 개선하기 위해 필요하다. 고객이 원하는 것을 찾는 데에 사용

  • 소셜 네트워크 분석
    사회관계망 분석이라고도 한다. 영향력 있는 사람을 찾는 것.

 


 

■ 위기요인과 통제 방안

 

 

1) 위기 요인

  • 사생활 침해 
    고전적인 사례로 강도가 집을 노리는 사건이 발생함.
    "익명화" 로 해결이 가능하다.

    ※ 익명화 : 사생활 침해를 막기 위해 데이터에 포함된 개인 식별 번호를 삭제하거나, 알아볼 수 없게 변환

  • 책임원칙 훼손
    영화 마이너리티 리포트와 같이 ,
    범죄를 저지르기도 전에 잡혀가는 것. 책임원칙을 훼손한다.

  • 데이터 오용
    베트남 전쟁에서 적군사망자 수를 과장 보도한 사건이 있다.

 

2) 통제 방안

  • 동의에서 책임으로 
    정보를 제공한 자가 아니라 사용한 자의 "책임" 으로.

  • 결과 기반 책임 원칙 고수

  • 알고리즘 접근 허용

  • 익명화(Anonymization)

 


 

■ 미래의 빅데이터

 

1) 빅데이터 활용의 3요소

데이터, 기술, 인력

 

  • 데이터 사이언티스트
    분석기술, 통찰력, 전달력, 협업 능력을 갖추어야 한다.

    ※ 가트너가 본 데이터 사이언티스트의 역량
    데이터 관리, 분석 모델링, 비즈니스 분석,  Soft Skill -> 공통점은 호기심에서 시작한다.
    Hard skill + Soft skill 을 동시에 갖춘 인재여야 한다.

  • 알고리즈미스트 
    데이터 사이언티스트로 인해 입은 피해를 구제.
    알고리즘에 의한 피해를 구제하기 위한 인력이다.

 

2) 개인정보 비식별화 기법

  • 데이터 마스킹(Data Masking)
    새롭고 읽기 쉬운 데이터를 익명으로 생성한다.
    홍길동, 35세, 서울 거주, 한국대 재학 - > 홍**, 35세, 서울거주, **대학 재학

  • 데이터 범주화
    데이터 값을 범주의 값으로 바꾸어서 값을 숨긴다.
    홍길동, 35세 - > 홍씨, 30~40대.

  • 가명처리
    개인정보의 주체 이름을 다른이름으로 변경한다. 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의

  • 잡음 첨가

  • 총계 처리 / 평균값 대체

  • 데이터 값 삭제

 

3) 무결성과 레이크

  • 데이터 무결성 
    데이터 베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시에
    여러가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다.

  • 데이터 레이크 (Data Lake)
    수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템이다.
    대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있다.

 

 


 

■ 가치 창조를 위한 데이터 사이언스와 전략 인사이트

 

빅데이터에 가치를 두지 않고 빅데이터로 가치를 만드는 것에 집중해야 한다.

 

 

산업별 분석 어플리케이션

 

  • 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임 분석, 고객 수익성 분성
  • 소매업 : 판촉, 매대 관리, 재고보충, 수요 예측
  • 제조업 : 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
  • 운송업 : 일정 관리, 노선 배정, 수익 관리
  • 헬스케어 : 약품 거래, 예비 진단, 질병 관리
  • 병원 : 가격 책정, 고객 로열티, 수익 관리
  • 에너지 : 트레이딩, 공급/수요 예측
  • 커뮤니케이션 : 고객 보유, 수요 예측, 네트워크 최적화, 고객 수익성 관리
  • 정부 : 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화



 

 

'License > AdsP' 카테고리의 다른 글

35회 ADsP 합격 후기  (3) 2022.11.22
ADsP 3과목 정리 (2)  (2) 2022.10.21
ADsP 3과목 정리 (1)  (0) 2022.10.19
ADsP 2과목 정리  (0) 2022.10.17
Comments