일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 분산
- 스파크
- 티스토리챌린지
- programmers
- 아파치 하둡
- Apache Spark
- Data Engineering
- 코딩테스트
- 알고리즘
- docker
- Hadoop
- 프로그래머스
- 우선순위큐
- 빅데이터
- 데이터 엔지니어링
- 파이썬
- 하둡
- 아파치 스파크
- 리트코드
- 오블완
- Apache Hadoop
- leetcode
- Python
- 딕셔너리
- Spark
- 이진탐색
- 분산처리
- 도커
- heapq
- HDFS
- Today
- Total
래원
[Spark] Spark Ecosystem과 Spark Architecture 본문
이전 글에서 간단히 Apache Spark에 대해 소개하였다.
이번 글에서는 Spark Ecosystem을 구성하는 주요 요소와 각각의 역할을 간단히 정리할 예정이다.
또한 Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 소개할 예정이다.
Spark Ecosystem
Spark Ecosystem은 크게 Spark Core, Libraries, Programming interface, Resource Management, Storage로 나뉜다.
각각에 대해 알아보자
Spark Core
Spark Core는 Apache Spark의 중심 컴포넌트로, 모든 추가 기능과 라이브러리들이 이 위에서 동작하며 분산 데이터 처리와 클러스터 자원 관리를 담당한다.
특히, RDD(Resilient Distributed Dataset), DataFrame, Dataset을 기반으로 데이터 연산 및 관리 기능을 제공한다.
RDD, DataFrame, Dataset에 대한 내용은 추후에 포스팅할 예정이다.
Libraries
라이브러리에는 SparkSQL, Spark Streaming, MLlibs, SparkR등이 있다.
간단하게 소개를 해보자면,
Spark SQL은 구조화된 데이터 처리를 위한 모듈로, SQL 쿼리 및 DataFrame API를 통해 데이터를 조회하고 조작할 수 있다.
Spark Streaming은 실시간으로 데이터 처리를 지원하는 모듈이다. 데이터를 작은 배치 단위로 나눠 micro-batch 방식으로 처리한다.
MLlib은 머신러닝 작업을 위한 라이브러리로, 분산 환경에서 다양한 알고리즘 (분류, 회귀, 클러스터링 등)을 제공한다.
GraphX는 그래프 데이터를 처리하고 분석하기 위한 라이브러리이다. PageRank와 같은 알고리즘을 지원한다.
SparkR은 R 프로그래밍 언어를 사용하는 Data Scientist들을 위한 Spark 통합 모듈이다.
Programming Interfaces
Spark는 여러 프로그래밍 언어를 지원하여 사용자 친화적인 환경을 제공한다.
- Scala: Spark의 기본 언어
- Python: PySpark를 통해 Python과의 통합 지원
- Java: Spark Core API를 통해 Java 사용 가능
- SQL: Spark SQL을 통해 구조화된 데이터 쿼리
- R: R을 통한 데이터 분석 가능
Resource Management
Spark는 다양한 클러스터 자원 관리 시스템과 통합하여 실행된다.
- Standalone 모드: 독립 실행 모드(Spark 자체 관리 기능)
- YARN: Hadoop YARN과의 통합
- MESOS: Apache Mesos와 통합
- Kubernetes: 컨테이너 기반 환경에서 클러스터 관리
Storage
Spark는 다양한 데이터 저장소와 연동할 수 있다.
- Local FS: 로컬 파일 시스템
- HDFS: Hadoop Distributed File System
- Amazon S3: 클라우드 기반 객체 스토리지
- RDBMS: 관계형 데이터 베이스
- NoSQL: Cassandra, MongoDB등 NoSQL 데이터베이스
이제 Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 알아보자
Spark Architecture
Spark는 기본적으로 마스터-워커 구조로 실행되며, application을 실행하기 위한 구성 요소에는 Driver, Cluster Manager, Executor가 있다.
Driver는 마스터 역할을 하며, 사용자가 작성한 코드를 실행한다.
또한, 작업을 나누고 각 작업(Task)을 Worker Node에게 전달하는데 Spark Context라는 객체를 통해 다른 노드들과 통신한다.
SparkContext는 Spark application을 제어하는 핵심요소이다. Driver가 다른 노드들과 통신하기 위해 사용하는 중간 관리자 역할을 수행하고, Cluster Manager와 통신하며 필요한 자원을 요청한다.
Cluster Manager는 자원(CPU, 메모리)를 관리하고 할당한다.
Driver에서 요청한 자원을 확인하고, 적절한 Worker Node에 작업을 배치한다.
이는 Spark와는 별개의 프레임워크인 YARN, MESOS, Kubernetes등이 사용된다. 하지만, standalone 모드를 통해 독립 실행도 가능하다.
Executor는 Worker Node에서 실행되며 실제 데이터를 처리하고 연산을 수행한다. 실제로 하는 일은 Driver가 보낸 Task를 처리하고 반복 연산이 필요한 데이터는 메모리에 저장하여(캐싱) 성능을 최적화한다. 또한, Task 실행 결과를 Driver로 반환하며, application 종료 시 함께 종료된다.
Task는 실제 데이터 처리의 최소 단위이다. 여러 Task가 병렬로 실행되어 빠른 데이터 처리가 가능하다.
Spark 작업 흐름 정리
1.Driver가 애플리케이션을 실행
- 사용자가 코드를 실행하면 Driver가 시작되고 SparkContext가 클러스터와 통신
2. Cluster Manager에게 자원 요청
- SparkContext는 Cluster Manager에게 CPU와 메모리와 같은 자원을 요청
3. 작업 배포
- Cluster Manager는 요청에 따라 Worker Node에 자원을 할당하고 작업(Task)을 배치
4. Task 실행
- Worker Node의 Executor가 Task를 병렬로 실행
- 필요한 데이터는 캐시(Cache)에 저장해 연산 속도를 높임
5.결과 반환
- 작업이 완료되면 결과를 Driver로 반환하고, 최종 결과를 사용자에게 출력
마무리
이번 글에서는 Spark Ecosystem을 구성하는 주요 요소와 각각의 역할을 간단히 소개하였고,
Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 역시 소개하였다.
이후에는 RDD, DataFrame, Dataset에 대해 포스팅할 예정이다.
나아가 설치와 실습에 대한 글도 포스팅할 예정이다..!
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] Zeppelin으로 SparkSQL 간단히 사용해보기 (1) | 2024.12.16 |
---|---|
[Spark] Apache Spark 설치 (2) | 2024.12.09 |
[Spark] What is RDD, DataFrame, Dataset? (0) | 2024.12.09 |
[Spark] Apache Spark(아파치 스파크) 개요 (1) | 2024.12.05 |