[BigData] Apache Hive 정리

LucasRan 2023. 12. 16. 20:13

2023. 12. 16. 20:13

1. 정리 목적

Hadoop의 초창기에는 적재된 데이터를 탐색/분석하기 위한 도구로 MapReduce를 주로 이용하였으나 복잡도가 높은 프로그래밍 기법이 필요했고, 사용자들이 빅데이터에 접근하기 어려워 해결하고자 개발함
SQL과 매우 유사한 방식으로 Hadoop 데이터에 접근 가능함
빅데이터의 가장 대표적인 SQL on Hadoop 제품으로 자리 잡음

CLI : 사용자가 Hive 쿼리를 입력하고 실행할 수 있는 인터페이스 ( Hive Server1 기반의 CLI와 Hive Server2 기반의 Beeline이 있음)
JDBC/ODBC Driver : Hive의 쿼리를 다양한 DataBase와 연결하기 위한 Driver를 제공
Query Engine : 사용자가 입력한 Hive 쿼리를 분석해 실행 계획을 수립하고 Hive QL을 MapReduce Code로 변환 및 실행
Metastore : Hive에서 사용하는 Table의 스키마 정보를 저장 및 관리하며 기본적으로 Derby DB가 사용되나 다른
DBMS(MySQL, PostgreSQL 등)로 변경 가능

Hive CLI에서 작성한 QL이 MapReduce 프로그램으로 변환되어 실행
CLI, 웹 콘솔 등을 통하여 Hive QL을 작성하면 Query Engine에 있는 SQL 파서가 Hive QL을 MapReduce 프로그램으로 변환
변환된 MapReduce 프로그램이 Hadoop 클러스터 전송되어 여러 DataNode에서 분산 실행
Meta Store은 Hive DW에서 정의한 DataBase, Table, Partition 정보 등이 저장 및 관리되어 Hive QL이 작동하면 Meta Store를 참고해 Hive 런타임 환경이 만들어짐

설비 데이터셋을 다양한 각도로 탐색 및 가공하는데 활용
Hive QL로 조회, 결합, 분리, 변환, 정제 등의 작업을 수행하여설비 DW를 구성하고 DW에서 2, 3차 탐색과 고급 분석을 거쳐 설비 분석마트를 만드는데 활용

※ 참조 url :

Apache Hive - A Faster and Better SQL on Hadoop - Whizlabs Blog

Want to build a career in Hadoop? Let's explore Apache Hive - a faster and better SQL on Hadoop to become a Hadoop professional...

www.whizlabs.com

실무로 배우는 빅데이터 기술 | 김강원 - 교보문고

실무로 배우는 빅데이터 기술 | 전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의 A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다. 빅데이터

product.kyobobook.co.kr

[BigData] Apache Zookeeper 정리 (2)	2023.12.16
[BigData] Apache Hadoop (HDFS) 정리 (1)	2023.12.16
[BigData] Apache Kafka 정리 (2)	2023.12.16
[BigData] Apache Flume 정리 (1)	2023.12.16
[BigData] AirFlow 정리 (0)	2023.10.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`