일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 알고리즘
- Apache Spark
- 프로그래머스
- Spark
- 이진탐색
- programmers
- 아파치 스파크
- 데이터 엔지니어링
- 딕셔너리
- 분산처리
- Data Engineering
- Apache Hadoop
- 티스토리챌린지
- 오블완
- 도커
- leetcode
- 리트코드
- 스파크
- Python
- Hadoop
- 빅데이터
- 아파치 하둡
- 코딩테스트
- 하둡
- HDFS
- 파이썬
- 분산
- heapq
- 우선순위큐
- docker
- Today
- Total
목록Data Engineering (10)
래원
이번 글에서는 spark에서 데이터를 불러와 spark sql을 사용해본 것에 대해 작성하려고 한다. 시작하기 앞서 zeppelin을 이용하여 실습을 진행했는데, 이에 대해 먼저 소개를 해야할 것 같다. 목차는 다음과 같다.1. Apache Zeppelin2. HDFS에서 데이터 불러오기3. SQL쿼리 실행4. 마무리 Apache Zeppelin 일단 Zeppelin은 Spark를 통한 데이터 분석의 불편함을 Web 기반의 notebook을 통해 해결해보고자 만들어진 툴이다. 기존의 Spark 환경에서는 명령어를 입력하고 결과를 출력하는 방식으로 작업이 진행되어 쿼리 결과나 분석 과정을 확인하는데 불편함이 있었다. 하지만 Zeppelin은 웹 인터페이스를 통해 이러한 문제를 해결하고 작업을 진행할 수 있..
이번 글에서는 Apache Spark 설치 과정을 소개할 예정이다. 큰 목차는 다음과 같다.1. 버전 정보2. SSH 설정3. Spark 설치4. 환경 변수 설정5. Apache Spark 클러스터 구성6. Spark 실행7. Spark 종료8. 마무리 버전 정보본 글에서 사용하는 환경은 다음과 같다.OS: Ubuntu 20.04Java: openjdk-11-jdkHadoop: Hadoop 3.4.0Spark: Spark 3.5.1 SSH 설정Spark는 Hadoop과 마찬가지로 노드 간 통신과 협력이 필요하기 때문에 SSH 설정을 필수적으로 해야한다.이미 되어 있다면 skip해도 된다. 먼저, 사용할 모든 노드의 /etc/hosts 파일에 사용할 노드들의 IP와 이름을 지정해준다. $ sudo vim..
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset) 1.1. What is RDD? 1.2. Transformation 1.3. Action 1.4. RDD 특징2. DataFrame 2.1. DataFra..
이전 글에서 간단히 Apache Spark에 대해 소개하였다. 이번 글에서는 Spark Ecosystem을 구성하는 주요 요소와 각각의 역할을 간단히 정리할 예정이다.또한 Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 소개할 예정이다. Spark Ecosystem Spark Ecosystem은 크게 Spark Core, Libraries, Programming interface, Resource Management, Storage로 나뉜다. 각각에 대해 알아보자 Spark CoreSpark Core는 Apache Spark의 중심 컴포넌트로, 모든 추가 기능과 라이브러리들이 이 위에서 동작하며 분산 데이터 처리와 클러스터 자원 관리를 담당한다.특히, RDD(Resilient D..
이번 글에서는 Apache Spark에 대해 소개 하려고 한다. 큰 목차는 다음과 같다.1. Apache Spark 등장배경2. What is Apache Spark? Apache Spark 등장 배경Spark가 뭔지 알기 전에 왜 Spark가 등장했는지 먼저 알아보자. Spark는 Hadoop MapReduce의 한계를 극복하기 위해 탄생했다. 빅데이터의 처리의 필요성이 급증하면서, MapReduce는 데이터 처리의 핵심 기술로 자리 잡았지만 몇가지 단점이 드러났다.1. 느린 처리 속도MapReduce는 디스크 기반으로 데이터를 처리모든 중간 결과를 디스크에 저장하고 다시 읽어오는 방식은 I/O 오버헤드를 발생시킴2. 복잡한 프로그래밍 모델MapReduce는 데이터 처리 워크플로우를 Map과 Reduc..
이번 글에서는 아래 그림과 같이 Hadoop MapReduce를 이용한 word count 실습에 대해 포스팅할 예정이다. MapReduce에 대한 설명은 아래 링크에서 확인할 수 있다.[Hadoop] MapReduce와 YARN 실습에 사용한 환경본 글에서 설명하는 실습은 다음과 같은 환경에서 진행하였다.OSUbuntu 20.04Javaopenjdk-11-jdkHadoophadoop-3.4.0IDEVisual Studio Code 실습 시작실습에 큰 흐름은 다음과 같다.1. HDFS에 txt 파일 저장2. MapReduce 코드 작성3. jar 파일 생성4. 실행5. 결과 확인 1. HDFS에 txt 파일 저장이 단계에서는 단어를 세고 싶은 txt 파..