반응형

1. 정리 목적

  • Hive에 대한 기본 개념을 살펴본다.
  • Hive의 기본 구성을 살펴본다.
  • Hive의 아키텍처를 살펴본다.
  • Hive를 개인적으로 활용했던 부분을 간단하게 공유한다.

 

2. Hive란?

  • Hadoop의 초창기에는 적재된 데이터를 탐색/분석하기 위한 도구로 MapReduce를 주로 이용하였으나 복잡도가 높은 프로그래밍 기법이 필요했고, 사용자들이 빅데이터에 접근하기 어려워 해결하고자 개발함
  • SQL과 매우 유사한 방식으로 Hadoop 데이터에 접근 가능함
  • 빅데이터의 가장 대표적인 SQL on Hadoop 제품으로 자리 잡음

 

3. Hive 구성

  • CLI : 사용자가 Hive 쿼리를 입력하고 실행할 수 있는 인터페이스 ( Hive Server1 기반의 CLI와 Hive Server2 기반의 Beeline이 있음)
  • JDBC/ODBC Driver : Hive의 쿼리를 다양한 DataBase와 연결하기 위한 Driver를 제공
  • Query Engine : 사용자가 입력한 Hive 쿼리를 분석해 실행 계획을 수립하고 Hive QL을 MapReduce Code로 변환 및 실행
  • Metastore : Hive에서 사용하는 Table의 스키마 정보를 저장 및 관리하며 기본적으로 Derby DB가 사용되나 다른 
    DBMS(MySQL, PostgreSQL 등)로 변경 가능

 

4. Hive 아키텍처

  • Hive CLI에서 작성한 QL이 MapReduce 프로그램으로 변환되어 실행
  • CLI, 웹 콘솔 등을 통하여 Hive QL을 작성하면 Query Engine에 있는 SQL 파서가 Hive QL을 MapReduce 프로그램으로 변환
  • 변환된 MapReduce 프로그램이 Hadoop 클러스터 전송되어 여러 DataNode에서 분산 실행
  • Meta Store은 Hive DW에서 정의한 DataBase, Table, Partition 정보 등이 저장 및 관리되어 Hive QL이 작동하면 Meta Store를 참고해 Hive 런타임 환경이 만들어짐

 

5. Hive 활용

  • 설비 데이터셋을 다양한 각도로 탐색 및 가공하는데 활용
  • Hive QL로 조회, 결합, 분리, 변환, 정제 등의 작업을 수행하여 설비 DW를 구성하고 DW에서 2, 3차 탐색과 고급 분석을 거쳐 설비 분석마트를 만드는데 활용

 


※ 참조 url :

- https://www.whizlabs.com/blog/apache-hive-faster-better-sql-on-hadoop/

 

Apache Hive - A Faster and Better SQL on Hadoop - Whizlabs Blog

Want to build a career in Hadoop? Let's explore Apache Hive - a faster and better SQL on Hadoop to become a Hadoop professional...

www.whizlabs.com

- [도서]실무로배우는 빅데이터기술 https://product.kyobobook.co.kr/detail/S000001766428

 

실무로 배우는 빅데이터 기술 | 김강원 - 교보문고

실무로 배우는 빅데이터 기술 | 전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의 A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다. 빅데이터

product.kyobobook.co.kr

 

반응형

'스터디 (정리) > BigData' 카테고리의 다른 글

[BigData] Apache Zookeeper 정리  (2) 2023.12.16
[BigData] Apache Hadoop (HDFS) 정리  (1) 2023.12.16
[BigData] Apache Kafka 정리  (2) 2023.12.16
[BigData] Apache Flume 정리  (1) 2023.12.16
[BigData] AirFlow 정리  (0) 2023.10.24

+ Recent posts