일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- apache kafka
- 파이썬
- 우선순위큐
- 카프카
- 리트코드
- Data Engineering
- 알고리즘
- String
- programmers
- Python
- KAFKA
- 빅데이터
- Apache Hadoop
- 오블완
- 하둡
- 분산처리
- 아파치 카프카
- 프로그래머스
- 이진탐색
- 티스토리챌린지
- heapq
- 도커
- 코딩테스트
- 분산
- 아파치 하둡
- leetcode
- docker
- 아파치 스파크
- DP
- Apache Spark
- Today
- Total
목록전체 글 (79)
래원
이번 글에서는 Apache Spark 설치 과정을 소개할 예정이다. 큰 목차는 다음과 같다.1. 버전 정보2. SSH 설정3. Spark 설치4. 환경 변수 설정5. Apache Spark 클러스터 구성6. Spark 실행7. Spark 종료8. 마무리 버전 정보본 글에서 사용하는 환경은 다음과 같다.OS: Ubuntu 20.04Java: openjdk-11-jdkHadoop: Hadoop 3.4.0Spark: Spark 3.5.1 SSH 설정Spark는 Hadoop과 마찬가지로 노드 간 통신과 협력이 필요하기 때문에 SSH 설정을 필수적으로 해야한다.이미 되어 있다면 skip해도 된다. 먼저, 사용할 모든 노드의 /etc/hosts 파일에 사용할 노드들의 IP와 이름을 지정해준다. $ sudo vim..
난이도: Medium 문제 설명An array is considered special if every pair of its adjacent elements contains two numbers with different parity. You are given an array of integer nums and a 2D integer matrix queries, where for queries[i] = [from_i, to_i] your task is to check that subarray nums[from_i..to_i] is special or not. Return an array of booleans answer such that answer[i] is true if nums[from_i..to_i..
난이도: Medium 문제 설명You are given a 0-indexed 2D integer array of events where events[i] = [startTime_i, endTime_i, value_i]. The ith event starts at startTime_i and ends at endTime_i, and if you attend this event, you will receive a value of value_i. You can choose at most two non-overlapping events to attend such that the sum of their values is maximized. Return this maximum sum. Note that the st..
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset) 1.1. What is RDD? 1.2. Transformation 1.3. Action 1.4. RDD 특징2. DataFrame 2.1. DataFra..
난이도: Lv.3 문제 설명n개의 노드가 있는 그래프가 있습니다. 각 노드는 1부터 n까지 번호가 적혀있습니다. 1번 노드에서 가장 멀리 떨어진 노드의 갯수를 구하려고 합니다. 가장 멀리 떨어진 노드란 최단경로로 이동했을 때 간선의 개수가 가장 많은 노드들을 의미합니다. 노드의 개수 n, 간선에 대한 정보가 담긴 2차원 배열 vertex가 매개변수로 주어질 때, 1번 노드로부터 가장 멀리 떨어진 노드가 몇 개인지를 return 하도록 solution 함수를 작성해주세요. 제한 사항노드의 개수 n은 2 이상 20,000 이하입니다.간선은 양방향이며 총 1개 이상 50,000개 이하의 간선이 있습니다.vertex 배열 각 행 [a, b]는 a번 노드와 b번 노드 사이에 간선이 있다는 의미입니다. 입출력 예n..
난이도: Medium문제 설명You are given an integer array banned and two integers n and maxSum. You are choosing some number of integers following the below rules:The chosen integers have to be in the range [1, n].Each integer can be chosen at most once.The chosen integers should not be in the array banned.The sum of the chosen integers should not exceed maxSum.Return the maximum number of integers you can..