빅데이터분석기사 필기/필기 요약

[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 데이터 분석 계획(1)

기은P 2021. 4. 6. 21:46
반응형

[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터 기술 및 제도(1)

 

 

1. 분석 문제 정의

 

1) 분석 문제의 의미
  • 과제는 처리해야할 문제이며, 분석은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동이다.
  • 문제라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정이다.
  • 이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행한다.
  • 하향식 접근 방식상향식 접근 방식을 반복적으로 수행하면서 상호보완하여 분석 과제를 발굴한다.
  • 과제 발굴 이후 분석 과제 정의서 산출물을 작성한다.

 

 

2) 하향식 접근 방식

- 하향식 접근 방식의 개념

하향식 접근 방식은 분석과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법이다.

 

- 하향식 접근 방식을 이용한 과제 발굴 절차

문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토 과정을 거쳐 과제를 발굴한다.

 

단계 내용
문제 탐색 비지니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라 5가지 영역으로 기업 비즈니스 분석)
분석 기회 발굴의 범위 확장
외부 참조 모델 기반 문제 탐색
분석 유스케이스 정의
문제 정의 사용자 관점에서 비즈니스 문제를 데이터 문제로 변환하여 정의
필요한 데이터 및 기법 정의
해결방안 탐색 정의된 문제를 해결하기 위해 분석 기법 및 역량에 따라 다양한 방안으로 탐색
데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용가능한 도구를 다양하게 고려
타당성 검토 제시된 대안에 대한 타당성평가 수행
경제적 타당성(비용 대비 편익) 검토
데이터 및 기술적 타당성 검토(데이터 존재 여부, 분석시스템 환경 분석, 데이터 분석 역량 존재 여부)
운영적 타당성 검토(조직의 문화, 여건 등을 감안하여 실제 운영 가능성에 대한 타당성 평가)
선택 여러 대안 중 타당성에 입각해 최적 대안을 선택하여 이를 프로젝트화 하고 계획 단계의 입력 정보로 설정함

 

 

 

3) 상향식 접근 방식

- 상향식 접근 방식의 개념

  • 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
  • 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로, 디자인 사고 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식을 적용한다.

- 상향식 접근 방식 특징

특징 내용
비지도 학습 방법 사용 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석
장바구니 분석, 군집 분석, 기술 통계, 프로파일링 등의 기술을 사용
*비지도 학습 : 입력데이터에 대한 정답인 레이블이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법
프로토타이핑 접근법 사용 시행착오를 통한 문제 해결을 위해 사용
가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인의 프로세스로 실행

 

 

4) 대상별 분석 기획 유형
유형 설명
최적화(Optimization) 분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 사용
개선을 통한 최적화 형태로 분석을 수행
솔루션(Solution) 분석의 대상은 인지하고 있으나 방법을 모르는 경우에는 해당 분석 주제에 대한 솔루션을 찾아냄
통찰(Insight) 분석의 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용해 새로운 지식인 통찰을 도출
발견(Discovery) 분석의 대상과 방법을 모르는 경우에는 발견 접근법으로 분석의 대상 자체를 새롭게 도출

 

 

 

5) 데이터 분석 과제 추진시 고려해야 하는 우선순위 평가 기준
구분 설명
시급성 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준임
시급성의 판단 기준은 전략적 중요도가 핵심사항임
분석 과제의 목표 가치(KPI)와 전략적 중요도를 현재의 관점에서 둘 것인지, 미래의 관점에서 둘 것인지를 함께 고려하여 시급성 여부 판단 필요
난이도 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요함
난이도는 현 시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨

 

 

분석 과제 적용 우선순위 기준을 시급성에 둔다면 3->4->2-> 영역 순

우선순위 기준을 난이도에 둔다면 3->1->2 영역 순

 

 

 

 

 

 

 

2. 데이터 분석 방안

 

1) 빅데이터 분석 방법론 개념
  • 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법
  • 데이터 분석 방법론의 구성 요소에는 절차, 방법, 도구와 기법, 템플릿과 산출물이 있다.

 

 

2) 빅데이터 분석 방법론 계층

계층 설명
단계(Phase) 프로세스 그룹을 통해 완성된 단계별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통한 통제
태스크(Task) 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step) 입력자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스

 

 

3) 빅데이터 분석 방법론의 분석 절차

순서 절차 세부절차 내용
1 분석 기획 비즈니스 이해 및 범위 설정 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악
업무 메뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성
프로젝트 정의 및 계획 수립 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함
WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정 계획, 예산 계획 등 프로젝트 수행 계획을 작성
프로젝트 위험계획 수립 발생 가능한 모든 위험(Risk)를 발굴해 사전에 대응 방안을 수립함으로 프로젝트 진행의 완전성을 높임
위험 대응 방법에는 회피(Avoid), 전가(Transfer), 완화(Mitigate), 수용(Accept)이 있음
2 데이터 준비 필요 데이터 정의 정형/비정형/반정형 등의 모든 내/외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서 작성
구체적인 데이터 획득 방안을 상세하게 수립해 프로젝트 지연 방지
데이터 스토어 설계 획득 방안이 수립되면 전사 차원의 데이터 스토어 설계
데이터 수집 및 정합성 검증 데이터 스토어에 크롤링, 실시간 처리, 배치 처리 등으로 데이터 수집
데이터 베이스 간 연동, API를 이용한 개발, ETL 도구의 활용 등 수집 프로세스 진행
3 데이터 분석 분석용 데이터 준비 비즈니스 룰 확인(비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 인식)
분석용 데이터셋 준비(데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출)
텍스트 분석 어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크 분석
탐색적 분석(EDA) 기초 통계량 산출, 데이터 분포와 변수 간의 관계 파악, 데이터 시각화
모델링 훈련용 데이터 세트와 테스트용 데이터 세트로 분리해 과적합 방지(데이터 분할)
데이터 모델링
모델에 대한 상세한 알고리즘 작성(모델 적용 및 운영 방안)
모델 평가 및 검증 테스트 데이터 세트를 이용해 모델 검증 작업 실시, 보고서 작성
모델 적용 및 운영 방안 수립 검증된 모델을 적용하고 최적화해 운영할 수 있는 방안 수립
4 시스템 구현 설계 및 구현 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용해 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행
설계서를 바탕으로 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축
시스템 테스트 및 운영 단위 테스트, 통합 테스트, 시스템 테스트 실시
5 평가 및 전개 모델 발전 계획 수립 모델의 생명주기를 설정, 주기적인 평가를 실시해 유지보수 하거나 재구축 방안 마련
모델의 특성을 고려해 모델 업데이트를 자동화하는 방안 수립 적용 가능
프로젝트 평가 보고 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행 과정에서 지식, 프로세스, 출력자료를 지식 자산화하고 프로젝트 최종 보고서를 작성 후 의사소통계획에 따라 프로젝트 종료

 

 

4) 분석 방법론 유형

- KDD 분석 방법론

1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론이다.

데이터로부터 목표 데이터(Target), 전처리 데이터(Preprocessed), 변환 데이터(Transformed), 패턴(Patterns)을 통해 지식을 생성한다.

 

순서 절차 설명
1 데이터 세트 선택(Selection) 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정
데이터베이스 또는 원시 데이터에서 선택 혹은 추가적으로 생성
데이터 마이닝에 필요한 목표데이터 구성
2 데이터 전처리(Prprocessing) 노이즈, 이상값, 결측값 등을 제거
추가로 요구되는 데이터 세트가 있을 경우 데이터 세트 선택, 프로세스 재실행
3 데이터 변환(Transformation) 변수를 찾고, 데이터 차원 축소
데이터 마이닝이 효율적으로 적용될 수 있도록 데이터 세트로 변경
4 데이터 마이닝(Mining) 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업
필요에 따라 데이터 전처리, 변환 프로세스 병행 가능
*데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법
5 데이터 마이닝 결과 평가(Evaluation) 분석 결과에 대한 해석/평가, 발견된 지식 활용
필요시 선택부터 마이닝까지 프로세스 반복 수행

 

 

 

- CRISP-DM 분석 방법론

비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.

1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS등이 참여하였으나 현재는 중단됨

구성 설명
단계(Phase) 최상위 레벨
일반화 태스크(Generic) 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
각 단계는 일반화 태스크 포함
세분화 태스크(Specialized) 일반화 태스크를 구체적으로 수행하는 레벨
ex) 데이터 정제의 일반화 태스크는 범주형, 연속형 데이터 정제 등으로 구체화된 세분화 태스크
프로세스 실행(Process) 데이터 마이닝을 위한 구체적인 실행

 

각 단계간 피드백을 통해 단계별 완성도를 높임

순서 절차 설명
1 업무 이해(Business Understanding) 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2 데이터 이해(Data Understanding) 분석을 위한 데이터를 수집 및 속성을 이해하고 문제점을 식별해 숨겨져 있는 인사이트를 발견하는 단계
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3 데이터 준비(Data Preparation) 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계
데이터 준비에 많은 시간이 소요
분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습/검증 데이터 분리 등 수행
4 모델링(Modeling) 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화 하는 단계
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가를 수행함
5 평가(Evaluation) 모형의 해석 결과가 프로젝트 목적에 부합하는지 평가하고 결과의 수용 여부를 판단하는 단계
평가에 많은 시간이 소요
분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가를 수행
6 전개(Deployment) 모델링과 평가단계를 통해 완성된 모델을 업무에 적용하기 위한 계획을 수립하는 단계
전개에 많은 시간이 소요
전개 계획 수립, 모니터링과 유지 보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

 

 

- SEMMA(Sampling Exploration Modification Modeling Assessment) 분석 방법론

분석 솔루션 업체 SAS사가 주도한 통계 중심의 5단계(샘플링->탐색->수정->모델링->검증) 방법론

순서 절차 설명
1 샘플링 통계적 추출, 조건 추출을 통한 분석 데이터 생성
비용 절감 및 모델 평가를 위한 데이터 준비
2 탐색 기초 통계, 그래프 탐색, 요인별 분할표, 클러스터링, 변수 유의성 및 상관 분석을 통한 분석 데이터 탐색
데이터 조감을 통한 데이터 오류 검색
모델의 효율 증대
데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상현상, 변화 등을 탐색
3 수정 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정/변환
데이터가 지닌 정보의 표현 극대화
최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형
4 모델링 신경망, 의사결정나무, 로지스틱 회귀 분석, 전통적 통계를 이용한 모델 구축
데이터의 숨겨진 패턴 발견
하나의 비즈니스 문제 해결을 위해 특수한 모델과 알고리즘 적용 가능
5 검증 모델 평가 검증
서로 다른 모델을 동시에 비교
추가 분석 수행 여부 결정

 

반응형