일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 아파치 하둡
- 스파크
- programmers
- 딕셔너리
- 데이터 엔지니어링
- Apache Hadoop
- docker
- 프로그래머스
- 하둡
- Python
- 오블완
- 이진탐색
- leetcode
- 분산
- Data Engineering
- 분산처리
- 리트코드
- Hadoop
- Spark
- heapq
- 파이썬
- Apache Spark
- 도커
- 빅데이터
- 코딩테스트
- HDFS
- 우선순위큐
- 알고리즘
- 티스토리챌린지
- 아파치 스파크
- Today
- Total
목록데이터 엔지니어링 (3)
래원
이번 글에서는 Apache Spark 설치 과정을 소개할 예정이다. 큰 목차는 다음과 같다.1. 버전 정보2. SSH 설정3. Spark 설치4. 환경 변수 설정5. Apache Spark 클러스터 구성6. Spark 실행7. Spark 종료8. 마무리 버전 정보본 글에서 사용하는 환경은 다음과 같다.OS: Ubuntu 20.04Java: openjdk-11-jdkHadoop: Hadoop 3.4.0Spark: Spark 3.5.1 SSH 설정Spark는 Hadoop과 마찬가지로 노드 간 통신과 협력이 필요하기 때문에 SSH 설정을 필수적으로 해야한다.이미 되어 있다면 skip해도 된다. 먼저, 사용할 모든 노드의 /etc/hosts 파일에 사용할 노드들의 IP와 이름을 지정해준다. $ sudo vim..
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset) 1.1. What is RDD? 1.2. Transformation 1.3. Action 1.4. RDD 특징2. DataFrame 2.1. DataFra..
이번 글에서는 Apache Spark에 대해 소개 하려고 한다. 큰 목차는 다음과 같다.1. Apache Spark 등장배경2. What is Apache Spark? Apache Spark 등장 배경Spark가 뭔지 알기 전에 왜 Spark가 등장했는지 먼저 알아보자. Spark는 Hadoop MapReduce의 한계를 극복하기 위해 탄생했다. 빅데이터의 처리의 필요성이 급증하면서, MapReduce는 데이터 처리의 핵심 기술로 자리 잡았지만 몇가지 단점이 드러났다.1. 느린 처리 속도MapReduce는 디스크 기반으로 데이터를 처리모든 중간 결과를 디스크에 저장하고 다시 읽어오는 방식은 I/O 오버헤드를 발생시킴2. 복잡한 프로그래밍 모델MapReduce는 데이터 처리 워크플로우를 Map과 Reduc..