반응형
1. 정리 목적
- Hive에 대한 기본 개념을 살펴본다.
- Hive의 기본 구성을 살펴본다.
- Hive의 아키텍처를 살펴본다.
- Hive를 개인적으로 활용했던 부분을 간단하게 공유한다.
2. Hive란?
- Hadoop의 초창기에는 적재된 데이터를 탐색/분석하기 위한 도구로 MapReduce를 주로 이용하였으나 복잡도가 높은 프로그래밍 기법이 필요했고, 사용자들이 빅데이터에 접근하기 어려워 해결하고자 개발함
- SQL과 매우 유사한 방식으로 Hadoop 데이터에 접근 가능함
- 빅데이터의 가장 대표적인 SQL on Hadoop 제품으로 자리 잡음
3. Hive 구성
- CLI : 사용자가 Hive 쿼리를 입력하고 실행할 수 있는 인터페이스 ( Hive Server1 기반의 CLI와 Hive Server2 기반의 Beeline이 있음)
- JDBC/ODBC Driver : Hive의 쿼리를 다양한 DataBase와 연결하기 위한 Driver를 제공
- Query Engine : 사용자가 입력한 Hive 쿼리를 분석해 실행 계획을 수립하고 Hive QL을 MapReduce Code로 변환 및 실행
- Metastore : Hive에서 사용하는 Table의 스키마 정보를 저장 및 관리하며 기본적으로 Derby DB가 사용되나 다른
DBMS(MySQL, PostgreSQL 등)로 변경 가능

4. Hive 아키텍처
- Hive CLI에서 작성한 QL이 MapReduce 프로그램으로 변환되어 실행
- CLI, 웹 콘솔 등을 통하여 Hive QL을 작성하면 Query Engine에 있는 SQL 파서가 Hive QL을 MapReduce 프로그램으로 변환
- 변환된 MapReduce 프로그램이 Hadoop 클러스터 전송되어 여러 DataNode에서 분산 실행
- Meta Store은 Hive DW에서 정의한 DataBase, Table, Partition 정보 등이 저장 및 관리되어 Hive QL이 작동하면 Meta Store를 참고해 Hive 런타임 환경이 만들어짐

5. Hive 활용
- 설비 데이터셋을 다양한 각도로 탐색 및 가공하는데 활용
- Hive QL로 조회, 결합, 분리, 변환, 정제 등의 작업을 수행하여설비 DW를 구성하고 DW에서 2, 3차 탐색과 고급 분석을 거쳐 설비 분석마트를 만드는데 활용

※ 참조 url :
- https://www.whizlabs.com/blog/apache-hive-faster-better-sql-on-hadoop/
Apache Hive - A Faster and Better SQL on Hadoop - Whizlabs Blog
Want to build a career in Hadoop? Let's explore Apache Hive - a faster and better SQL on Hadoop to become a Hadoop professional...
www.whizlabs.com
- [도서]실무로배우는 빅데이터기술 https://product.kyobobook.co.kr/detail/S000001766428
실무로 배우는 빅데이터 기술 | 김강원 - 교보문고
실무로 배우는 빅데이터 기술 | 전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의 A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다. 빅데이터
product.kyobobook.co.kr
반응형
'스터디 (정리) > BigData' 카테고리의 다른 글
[BigData] Apache Zookeeper 정리 (2) | 2023.12.16 |
---|---|
[BigData] Apache Hadoop (HDFS) 정리 (1) | 2023.12.16 |
[BigData] Apache Kafka 정리 (2) | 2023.12.16 |
[BigData] Apache Flume 정리 (1) | 2023.12.16 |
[BigData] AirFlow 정리 (0) | 2023.10.24 |