console.log("daily coding")
빅데이터 구현 기술 본문
빅데이터 아키텍처의 레이어 및 역할
빅데이터 구축 단계
- 빅데이터 아키텍처의 요소 기술들은 적게는 10개에서 많게는 20여 개
- 데이터의 6V (Volume, Variety, Veracity, Visualization, Value) 요건과 중요도에 따라 최적화된 아키텍처를 구성
1) 수집 기술
- 다양한 시스템으로부터 원천 데이터를 효과적으로 수집하는 기술
- 빅데이터 수집기는 원천 시스템의 다양한 인터페이스 유형 (DB, File, API, 메세지 등)과 연결되어 정형 또는
비정형 데이터를 대용량으로 수집
- 수집 종류
가) 대용량 파일 수집
나) 실시간 스트림 수집 : CEP(Complex Event Processing), ESP(Event Stream Processing)
- 관련 SW : Flume, Fluented, Scribe, Logstash, Chukwa 등
2) 적재 기술
- 수집한 데이터를 분산 스토리지에 영구 또는 임시로 적재하는 기술
- 분산 저장소 종류
가) HDFS : 대용량 파일 전체를 영구적으로 저장
나) NoSQL : 대규모 메시징 데이터 전체를 영구 저장
다) 인메모리 캐시 : 대규모 메시징 데이터의 일부만 임시 저장
라) MOM : 대규모 메시징 데이터 전체를 버퍼링 처리
ex) Kafka
- 수집 종류
가) 대용량 파일 수집
나) 실시간 스트림 수집 : CEP(Complex Event Processing), ESP(Event Stream Processing)
- 관련 SW : Flume, Fluented, Scribe, Logstash, Chukwa 등
3) 처리/탐색 기술
- 대용량 저장소에 적재된 데이터를 분석에 활용하기 위해 데이터를 정형화 및 정규화하는 기술
- 휴(Hue), 하이브(Hive), 스파크(Spark) SQL, 우지(Oozie)
4) 분석/응용 기술
- 대규모 데이터로부터 새로운 패턴을 찾고, 그 패턴을 해석해서 통찰력을 확보하기 위한 기술
- 빅데이터 분석은 활용 영역에 따라 통계, 데이터 마이닝, 텍스트 마이닝, 소셜 미디어 분석 등 다양하게 분류