반응형
[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터 기술 및 제도(1)
1. 분석 문제 정의
1) 분석 문제의 의미
- 과제는 처리해야할 문제이며, 분석은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동이다.
- 문제라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정이다.
- 이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행한다.
- 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호보완하여 분석 과제를 발굴한다.
- 과제 발굴 이후 분석 과제 정의서 산출물을 작성한다.
2) 하향식 접근 방식
- 하향식 접근 방식의 개념
하향식 접근 방식은 분석과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법이다.
- 하향식 접근 방식을 이용한 과제 발굴 절차
문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토 과정을 거쳐 과제를 발굴한다.
단계 | 내용 |
문제 탐색 | 비지니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라 5가지 영역으로 기업 비즈니스 분석) 분석 기회 발굴의 범위 확장 외부 참조 모델 기반 문제 탐색 분석 유스케이스 정의 |
문제 정의 | 사용자 관점에서 비즈니스 문제를 데이터 문제로 변환하여 정의 필요한 데이터 및 기법 정의 |
해결방안 탐색 | 정의된 문제를 해결하기 위해 분석 기법 및 역량에 따라 다양한 방안으로 탐색 데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용가능한 도구를 다양하게 고려 |
타당성 검토 | 제시된 대안에 대한 타당성평가 수행 경제적 타당성(비용 대비 편익) 검토 데이터 및 기술적 타당성 검토(데이터 존재 여부, 분석시스템 환경 분석, 데이터 분석 역량 존재 여부) 운영적 타당성 검토(조직의 문화, 여건 등을 감안하여 실제 운영 가능성에 대한 타당성 평가) |
선택 | 여러 대안 중 타당성에 입각해 최적 대안을 선택하여 이를 프로젝트화 하고 계획 단계의 입력 정보로 설정함 |
3) 상향식 접근 방식
- 상향식 접근 방식의 개념
- 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로, 디자인 사고 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식을 적용한다.
- 상향식 접근 방식 특징
특징 | 내용 |
비지도 학습 방법 사용 | 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석 장바구니 분석, 군집 분석, 기술 통계, 프로파일링 등의 기술을 사용 *비지도 학습 : 입력데이터에 대한 정답인 레이블이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법 |
프로토타이핑 접근법 사용 | 시행착오를 통한 문제 해결을 위해 사용 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인의 프로세스로 실행 |
4) 대상별 분석 기획 유형
유형 | 설명 |
최적화(Optimization) | 분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 사용 개선을 통한 최적화 형태로 분석을 수행 |
솔루션(Solution) | 분석의 대상은 인지하고 있으나 방법을 모르는 경우에는 해당 분석 주제에 대한 솔루션을 찾아냄 |
통찰(Insight) | 분석의 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용해 새로운 지식인 통찰을 도출 |
발견(Discovery) | 분석의 대상과 방법을 모르는 경우에는 발견 접근법으로 분석의 대상 자체를 새롭게 도출 |
5) 데이터 분석 과제 추진시 고려해야 하는 우선순위 평가 기준
구분 | 설명 |
시급성 | 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준임 시급성의 판단 기준은 전략적 중요도가 핵심사항임 분석 과제의 목표 가치(KPI)와 전략적 중요도를 현재의 관점에서 둘 것인지, 미래의 관점에서 둘 것인지를 함께 고려하여 시급성 여부 판단 필요 |
난이도 | 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요함 난이도는 현 시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨 |
분석 과제 적용 우선순위 기준을 시급성에 둔다면 3->4->2-> 영역 순
우선순위 기준을 난이도에 둔다면 3->1->2 영역 순
2. 데이터 분석 방안
1) 빅데이터 분석 방법론 개념
- 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법
- 데이터 분석 방법론의 구성 요소에는 절차, 방법, 도구와 기법, 템플릿과 산출물이 있다.
2) 빅데이터 분석 방법론 계층
계층 | 설명 |
단계(Phase) | 프로세스 그룹을 통해 완성된 단계별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통한 통제 |
태스크(Task) | 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 |
스텝(Step) | 입력자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스 |
3) 빅데이터 분석 방법론의 분석 절차
순서 | 절차 | 세부절차 | 내용 |
1 | 분석 기획 | 비즈니스 이해 및 범위 설정 | 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악 업무 메뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성 |
프로젝트 정의 및 계획 수립 | 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함 WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정 계획, 예산 계획 등 프로젝트 수행 계획을 작성 |
||
프로젝트 위험계획 수립 | 발생 가능한 모든 위험(Risk)를 발굴해 사전에 대응 방안을 수립함으로 프로젝트 진행의 완전성을 높임 위험 대응 방법에는 회피(Avoid), 전가(Transfer), 완화(Mitigate), 수용(Accept)이 있음 |
||
2 | 데이터 준비 | 필요 데이터 정의 | 정형/비정형/반정형 등의 모든 내/외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서 작성 구체적인 데이터 획득 방안을 상세하게 수립해 프로젝트 지연 방지 |
데이터 스토어 설계 | 획득 방안이 수립되면 전사 차원의 데이터 스토어 설계 | ||
데이터 수집 및 정합성 검증 | 데이터 스토어에 크롤링, 실시간 처리, 배치 처리 등으로 데이터 수집 데이터 베이스 간 연동, API를 이용한 개발, ETL 도구의 활용 등 수집 프로세스 진행 |
||
3 | 데이터 분석 | 분석용 데이터 준비 | 비즈니스 룰 확인(비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 인식) 분석용 데이터셋 준비(데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출) |
텍스트 분석 | 어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크 분석 | ||
탐색적 분석(EDA) | 기초 통계량 산출, 데이터 분포와 변수 간의 관계 파악, 데이터 시각화 | ||
모델링 | 훈련용 데이터 세트와 테스트용 데이터 세트로 분리해 과적합 방지(데이터 분할) 데이터 모델링 모델에 대한 상세한 알고리즘 작성(모델 적용 및 운영 방안) |
||
모델 평가 및 검증 | 테스트 데이터 세트를 이용해 모델 검증 작업 실시, 보고서 작성 | ||
모델 적용 및 운영 방안 수립 | 검증된 모델을 적용하고 최적화해 운영할 수 있는 방안 수립 | ||
4 | 시스템 구현 | 설계 및 구현 | 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용해 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행 설계서를 바탕으로 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축 |
시스템 테스트 및 운영 | 단위 테스트, 통합 테스트, 시스템 테스트 실시 | ||
5 | 평가 및 전개 | 모델 발전 계획 수립 | 모델의 생명주기를 설정, 주기적인 평가를 실시해 유지보수 하거나 재구축 방안 마련 모델의 특성을 고려해 모델 업데이트를 자동화하는 방안 수립 적용 가능 |
프로젝트 평가 보고 | 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행 과정에서 지식, 프로세스, 출력자료를 지식 자산화하고 프로젝트 최종 보고서를 작성 후 의사소통계획에 따라 프로젝트 종료 |
4) 분석 방법론 유형
- KDD 분석 방법론
1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론이다.
데이터로부터 목표 데이터(Target), 전처리 데이터(Preprocessed), 변환 데이터(Transformed), 패턴(Patterns)을 통해 지식을 생성한다.
순서 | 절차 | 설명 |
1 | 데이터 세트 선택(Selection) | 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정 데이터베이스 또는 원시 데이터에서 선택 혹은 추가적으로 생성 데이터 마이닝에 필요한 목표데이터 구성 |
2 | 데이터 전처리(Prprocessing) | 노이즈, 이상값, 결측값 등을 제거 추가로 요구되는 데이터 세트가 있을 경우 데이터 세트 선택, 프로세스 재실행 |
3 | 데이터 변환(Transformation) | 변수를 찾고, 데이터 차원 축소 데이터 마이닝이 효율적으로 적용될 수 있도록 데이터 세트로 변경 |
4 | 데이터 마이닝(Mining) | 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업 필요에 따라 데이터 전처리, 변환 프로세스 병행 가능 *데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법 |
5 | 데이터 마이닝 결과 평가(Evaluation) | 분석 결과에 대한 해석/평가, 발견된 지식 활용 필요시 선택부터 마이닝까지 프로세스 반복 수행 |
- CRISP-DM 분석 방법론
비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS등이 참여하였으나 현재는 중단됨
구성 | 설명 |
단계(Phase) | 최상위 레벨 |
일반화 태스크(Generic) | 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 각 단계는 일반화 태스크 포함 |
세분화 태스크(Specialized) | 일반화 태스크를 구체적으로 수행하는 레벨 ex) 데이터 정제의 일반화 태스크는 범주형, 연속형 데이터 정제 등으로 구체화된 세분화 태스크 |
프로세스 실행(Process) | 데이터 마이닝을 위한 구체적인 실행 |
각 단계간 피드백을 통해 단계별 완성도를 높임
순서 | 절차 | 설명 |
1 | 업무 이해(Business Understanding) | 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
2 | 데이터 이해(Data Understanding) | 분석을 위한 데이터를 수집 및 속성을 이해하고 문제점을 식별해 숨겨져 있는 인사이트를 발견하는 단계 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
3 | 데이터 준비(Data Preparation) | 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계 데이터 준비에 많은 시간이 소요 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습/검증 데이터 분리 등 수행 |
4 | 모델링(Modeling) | 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화 하는 단계 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가를 수행함 |
5 | 평가(Evaluation) | 모형의 해석 결과가 프로젝트 목적에 부합하는지 평가하고 결과의 수용 여부를 판단하는 단계 평가에 많은 시간이 소요 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가를 수행 |
6 | 전개(Deployment) | 모델링과 평가단계를 통해 완성된 모델을 업무에 적용하기 위한 계획을 수립하는 단계 전개에 많은 시간이 소요 전개 계획 수립, 모니터링과 유지 보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
- SEMMA(Sampling Exploration Modification Modeling Assessment) 분석 방법론
분석 솔루션 업체 SAS사가 주도한 통계 중심의 5단계(샘플링->탐색->수정->모델링->검증) 방법론
순서 | 절차 | 설명 |
1 | 샘플링 | 통계적 추출, 조건 추출을 통한 분석 데이터 생성 비용 절감 및 모델 평가를 위한 데이터 준비 |
2 | 탐색 | 기초 통계, 그래프 탐색, 요인별 분할표, 클러스터링, 변수 유의성 및 상관 분석을 통한 분석 데이터 탐색 데이터 조감을 통한 데이터 오류 검색 모델의 효율 증대 데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상현상, 변화 등을 탐색 |
3 | 수정 | 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정/변환 데이터가 지닌 정보의 표현 극대화 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형 |
4 | 모델링 | 신경망, 의사결정나무, 로지스틱 회귀 분석, 전통적 통계를 이용한 모델 구축 데이터의 숨겨진 패턴 발견 하나의 비즈니스 문제 해결을 위해 특수한 모델과 알고리즘 적용 가능 |
5 | 검증 | 모델 평가 검증 서로 다른 모델을 동시에 비교 추가 분석 수행 여부 결정 |
반응형
'빅데이터분석기사 필기 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터 기술 및 제도(1) (0) | 2021.04.05 |
---|---|
[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터의 이해(1) (0) | 2021.04.05 |