일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 카프카
- KAFKA
- 문자열
- 이진탐색
- DP
- 아파치 하둡
- Apache Hadoop
- 분산
- 우선순위큐
- 알고리즘
- 아파치 스파크
- 아파치 카프카
- Data Engineering
- 오블완
- Apache Spark
- 분산처리
- heapq
- 티스토리챌린지
- Python
- 프로그래머스
- programmers
- String
- apache kafka
- 하둡
- 리트코드
- leetcode
- 코딩테스트
- 도커
- 파이썬
- docker
- Today
- Total
목록Data Engineering (15)
래원
이번 글에서는 Apache Spark 설치 과정을 소개할 예정이다. 큰 목차는 다음과 같다.1. 버전 정보2. SSH 설정3. Spark 설치4. 환경 변수 설정5. Apache Spark 클러스터 구성6. Spark 실행7. Spark 종료8. 마무리 버전 정보본 글에서 사용하는 환경은 다음과 같다.OS: Ubuntu 20.04Java: openjdk-11-jdkHadoop: Hadoop 3.4.0Spark: Spark 3.5.1 SSH 설정Spark는 Hadoop과 마찬가지로 노드 간 통신과 협력이 필요하기 때문에 SSH 설정을 필수적으로 해야한다.이미 되어 있다면 skip해도 된다. 먼저, 사용할 모든 노드의 /etc/hosts 파일에 사용할 노드들의 IP와 이름을 지정해준다. $ sudo vim..
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset) 1.1. What is RDD? 1.2. Transformation 1.3. Action 1.4. RDD 특징2. DataFrame 2.1. DataFra..
이전 글에서 간단히 Apache Spark에 대해 소개하였다. 이번 글에서는 Spark Ecosystem을 구성하는 주요 요소와 각각의 역할을 간단히 정리할 예정이다.또한 Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 소개할 예정이다. Spark Ecosystem Spark Ecosystem은 크게 Spark Core, Libraries, Programming interface, Resource Management, Storage로 나뉜다. 각각에 대해 알아보자 Spark CoreSpark Core는 Apache Spark의 중심 컴포넌트로, 모든 추가 기능과 라이브러리들이 이 위에서 동작하며 분산 데이터 처리와 클러스터 자원 관리를 담당한다.특히, RDD(Resilient D..
이번 글에서는 Apache Spark에 대해 소개 하려고 한다. 큰 목차는 다음과 같다.1. Apache Spark 등장배경2. What is Apache Spark? Apache Spark 등장 배경Spark가 뭔지 알기 전에 왜 Spark가 등장했는지 먼저 알아보자. Spark는 Hadoop MapReduce의 한계를 극복하기 위해 탄생했다. 빅데이터의 처리의 필요성이 급증하면서, MapReduce는 데이터 처리의 핵심 기술로 자리 잡았지만 몇가지 단점이 드러났다.1. 느린 처리 속도MapReduce는 디스크 기반으로 데이터를 처리모든 중간 결과를 디스크에 저장하고 다시 읽어오는 방식은 I/O 오버헤드를 발생시킴2. 복잡한 프로그래밍 모델MapReduce는 데이터 처리 워크플로우를 Map과 Reduc..
이번 글에서는 아래 그림과 같이 Hadoop MapReduce를 이용한 word count 실습에 대해 포스팅할 예정이다. MapReduce에 대한 설명은 아래 링크에서 확인할 수 있다.[Hadoop] MapReduce와 YARN 실습에 사용한 환경본 글에서 설명하는 실습은 다음과 같은 환경에서 진행하였다.OSUbuntu 20.04Javaopenjdk-11-jdkHadoophadoop-3.4.0IDEVisual Studio Code 실습 시작실습에 큰 흐름은 다음과 같다.1. HDFS에 txt 파일 저장2. MapReduce 코드 작성3. jar 파일 생성4. 실행5. 결과 확인 1. HDFS에 txt 파일 저장이 단계에서는 단어를 세고 싶은 txt 파..
이번 글에서는 Hadoop 설치 과정에 대해 소개 할 예정이다. 글 시작하기에 앞서, 이전 글들을 보고 오는 것을 추천한다.[Hadoop] Apache Hadoop 소개[Hadoop] HDFS란?[Hadoop] MapReduce와 YARN 버전 정보본 글에서 사용하는 환경은 다음과 같다.OS: Ubuntu 20.04Java: openjdk-11-jdkHadoop: Hadoop 3.4.0 Java 설치Hadoop은 Java 기반으로 개발되었다.따라서, Hadoop의 실행과 관련된 모든 프로세스는 Java로 작성된 프로그램이므로 Java를 먼저 설치해주어야한다. 사용할 모든 노드에서 설치를 진행해야 한다. $ sudo apt update$ sudo apt list openjdk* # 모든 버전 목록 조회$..