기은P
시간이 멈추는 장소
기은P
  • Programming (272)
    • 개발노트 (1)
    • FrontEnd (56)
      • ES&JS 문법 (14)
      • HTML&CSS (4)
      • React 기본 (18)
      • React 심화 (12)
      • React 이슈 (2)
      • Project 연습 (1)
      • Next.js (5)
    • Backend&Devops (33)
      • AWS (2)
      • Docker (9)
      • Jenkins (6)
      • Nginx (6)
      • Node.js (1)
      • ElasticSearch (5)
      • 프레임워크&아키텍처 (2)
      • 암호화 (0)
      • 기타 (2)
    • 알고리즘 (3)
    • C# (8)
      • WPF (8)
    • Java (51)
      • 순수 Java (18)
      • RDF&Jena (12)
      • RCP&GEF (9)
      • JMX (5)
      • JMapper (3)
      • 오류해결 (4)
    • Database (21)
      • RDBMS (9)
      • NoSQL (2)
      • TSDB (1)
      • GraphQL (1)
      • Hibernate (3)
      • 데이터베이스 이론 (4)
      • Redis (1)
    • 프로토콜 (11)
      • Netty (4)
      • gRPC (5)
      • 프로토콜 개념 (2)
    • Server (4)
      • Linux (4)
    • 2020 정보처리기사 필기 (43)
      • 목차 (1)
      • 기출문제 (1)
      • 1과목 - 소프트웨어 설계 (6)
      • 2과목 - 소프트웨어 개발 (7)
      • 3과목 - 데이터베이스 구축 (8)
      • 4과목 - 프로그래밍 언어 활용 (7)
      • 5과목 - 정보시스템 구축 관리 (10)
    • 2020 정보처리기사 실기 (31)
      • 목차 (4)
      • 기출예상문제 (19)
      • 실기요약 (8)
    • 빅데이터분석기사 필기 (4)
      • 목차 (0)
      • 필기 요약 (3)
    • 전기 공학 (1)
      • CIM (1)
    • 산업자동화시스템 (3)
      • SCADA (1)
      • OPC UA (2)
    • 디자인패턴 (1)
    • 휴지통 (0)

공지사항

  • 공지사항/포스팅 예정 항목

최근 댓글

최근 글

전체 방문자
오늘
어제

티스토리

hELLO · Designed By 정상우.
기은P

시간이 멈추는 장소

빅데이터분석기사 필기/필기 요약

[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터 기술 및 제도(1)

2021. 4. 5. 22:58
반응형

[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터 기술 및 제도(1)

 

 

 

1. 빅데이터 플랫폼

 

1) 빅데이터 플랫폼의 개념

빅데이터에서 가치를 추출하기 위해 일련의 과정(수집->저장->처리->분석->시각화)를 규격화한 기술이다.

특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.

 

 

2) 빅데이터 플랫폼 구성 요소
구성요소 주요기능
데이터 수집 원천 데이터의 정형/반정형/비정형 데이터 수집
ETL, 크롤러, EAI
데이터 저장 정형 데이터, 반정형 데이터 비정형 데이터 저장
RDBMS, NoSQL
데이터 분석 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
SNS분석, 예측 분석 등
데이터 활용 데이터 가시화 및 BI, Open API 연계
히스토 그램, 인포그래픽 등

 

 

3) 빅데이터 플랫폼 데이터 형식
형식 특징
HTML 웹 페이지를 만들 때 사용되는 문서 형식
텍스트, 태그, 스크립트로 구성
XML SGML 문서 형식을 가진 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하는 다목적 마크업 언어
데이터 표현을 위해 태그 사용
엘리먼트, 속성, 처리 명령, 엔티티, 주석, CDATE 섹션으로 구성
CSV 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
JSON 키-값으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷

 

4) 빅데이터 플랫폼 구축 소프트웨어
소프트웨어 핵심 목적
R 빅데이터 분석 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어
다양한 그래프 패키지들을 통해 강력한 시각화 기능 제공
우지(Oozie) 워크플로우 관리 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템(스케줄링/모니터링)
맵 리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
플럼(Flume) 데이터 수집 이벤트와 에이전트를 활용해 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동
HBase 분산 데이터베이스 컬럼 기반 저장소로 HDFS와 인터페이스 제공
스쿱(Sqoop) 정형 데이터 수집 SQL to Hadoop의 약자
커넥터를 사용해 관계형 데이터베이스 시스템에서 하둡 파일 시스템(HDFS)로 데이터를 수집하거나 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능 수행

 

>> 분산 컴퓨팅 환경 소프트웨어 구성 요소

 

- 맵 리듀스(Map Reduce)

  • Key-Value 형태의 데이터를 처리
  • 맵(Map) -> 셔플(Shuffle) -> 리듀스(Reduce) 순서대로 데이터 처리
맵 Key-value 형태로 데이터를 취합
셔플 데이터를 통합해 처리
리듀스 맵 처리된 데이터를 정리

 

- 얀(Yarn)

  • 하둡의 맵 리듀스 처리 부분을 새롭게 만든 자원관리 플랫폼
  • 리소스 매니저(Master)와 노드 매니저(Slave)로 구성
리소스 매니저 스케줄러 역할을 수행하고 클러스터 이용률 최적화를 수행
노드 매니저 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리
애플리케이션 마스터 리소스 매니저와 자원의 교섭을 책임지고, 컨테이너를 실행
컨테이너 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원

 

- 아파치 스파크(Apache Spark)

  • 하둡 기반 대규모 데이터 분산처리 시스템
  • 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리
  • 스칼라, 자바, 파이썬, R 등에 사용 가능

 

 

- 하둡 분산파일 시스템(HDFS)

  • 하둡 분산파일 시스템(Hadoop Distributed File System)의 약자
  • 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
  • 네임 노드(Master, 파일 이름과 권한 등의 속성을 기록)와 데이터 노드(Slave, 일정한 크기로 나눈 블록 형태로 저장)로 구성

 

 

- 아파치 하둡(Apache Hadoop)

  • 분산 파일 시스템과 맵 리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
  • 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
  • ex) Spark, Hive, YARN, Cassandra, Pig 등

 

 

 

 

 

 

5) 하둡 에코시스템(Hadoop Ecosystem)

하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.

하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있다.

 

 

- 하둡 에코시스템 수집, 저장, 처리 기술

구분 기술 설명
비정형 데이터 수집 척와(Chukwa) 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장
플럼(Flume) 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기위해 이벤트와 에이전트를 활용하는 기술
스크라이브(Scribe) 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
최종 데이터는 HDFS 외에 다양한 저장소를 활용
HDFS에 저장하기 위해 JNI를 이용
*JNI : 자바 네이티브 인터페이스
정형 데이터 수집 스쿱(Sqoop) 대용량 데이터 전송 솔루션
커넥터를 사용해 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 그 반대로 보내는 기능을 수행
Oracle, MSSQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈 소스 RDBMS 지원
히호(Hiho) 스쿱과 같은 대용량 데이터 전송 솔루션이며, 현재 깃허브에 공개되어 있음
하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스를 지원, 현재는 Oracle, MySQL의 데이터만 전송 지원
분산 데이터 저장 HDFS 대용량 파일을 분산된 서버에 저장하고 그 저장된 데이터를 빠르게 처리할 수 있는 하둡 분산 파일 시스템
범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원
다중 복제, 대량 파일 저장, 온라인 변경, 범용 서버 기반, 자동 복구 특징이 있음
분산 데이터 처리 맵 리듀스 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
모든 데이터를 키-값 쌍으로 구성, 데이터를 분류
분산 데이터 베이스 HBase 컬럼 기반 저장소로 HDFS와 인터페이스 제공
실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트 할 수 있음

 

- 하둡 에코시스템의 데이터 가공분석, 관리를 위한 주요 기술

구분 기술 설명
데이터 가공 피그(Pig) 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용해 맵 리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공
맵 리듀스 API를 매우 단순화시키고, SQL과 유사한 형태로 설계됨
SQL과 유사하기만 하지 SQL와는 다르다
하이브(Hive) 하둡 기반의 DW 솔루션
SQL과 매우 유사한 HiveQL이라는 쿼리를 제공
HiveQL은 내부적으로 맵리듀스로 변환되어 실행됨
데이터 마이닝 머하웃(Mahout) 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
분류, 클러스터링, 추천, 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원
실시간 SQL 질의 임팔라(Impala) 하둡 기반의 실시간 SQL 질의 시스템
데이터 조회를 위한 인터페이스로 HiveQL을 사용
수초 내에 SQL 질의 결과를 확인할 수 있으며 HBase와 연동이 가능
데몬(Daemon), 카탈로그 서비스(Catalog Service), 스테이트스토어(Statestore)로 구성됨
워크 플로우 관리 우지(Oozie) 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
맵 리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
분산 코디네이션 주키퍼(Zookeeper) 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안전성을 보장함

 

 

 

반응형
저작자표시 변경금지 (새창열림)

'빅데이터분석기사 필기 > 필기 요약' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 데이터 분석 계획(1)  (0) 2021.04.06
[빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터의 이해(1)  (0) 2021.04.05
    '빅데이터분석기사 필기/필기 요약' 카테고리의 다른 글
    • [빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 데이터 분석 계획(1)
    • [빅데이터분석기사 필기 요약] 1장 빅데이터 분석 기획 - 빅데이터의 이해(1)
    기은P
    기은P
    기은P의 블로그 일상과 개발 관련 포스팅 #React #Typescript #Next #Nest https://github.com/kimdongjang

    티스토리툴바