일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- heapq
- Apache Hadoop
- 하둡
- 파이썬
- 코딩테스트
- 티스토리챌린지
- 도커
- Data Engineering
- 데이터 엔지니어링
- Python
- Spark
- Hadoop
- 스파크
- Apache Spark
- HDFS
- 아파치 하둡
- 아파치 스파크
- 이진탐색
- programmers
- docker
- 딕셔너리
- 빅데이터
- 알고리즘
- 프로그래머스
- 분산처리
- 리트코드
- 분산
- 우선순위큐
- leetcode
- 오블완
- Today
- Total
목록분류 전체보기 (56)
래원
난이도: Medium문제 설명You are given an integer array banned and two integers n and maxSum. You are choosing some number of integers following the below rules:The chosen integers have to be in the range [1, n].Each integer can be chosen at most once.The chosen integers should not be in the array banned.The sum of the chosen integers should not exceed maxSum.Return the maximum number of integers you can..
이전 글에서 간단히 Apache Spark에 대해 소개하였다. 이번 글에서는 Spark Ecosystem을 구성하는 주요 요소와 각각의 역할을 간단히 정리할 예정이다.또한 Spark Architecture와 실제 작업 흐름이 어떻게 돌아가는지 소개할 예정이다. Spark Ecosystem Spark Ecosystem은 크게 Spark Core, Libraries, Programming interface, Resource Management, Storage로 나뉜다. 각각에 대해 알아보자 Spark CoreSpark Core는 Apache Spark의 중심 컴포넌트로, 모든 추가 기능과 라이브러리들이 이 위에서 동작하며 분산 데이터 처리와 클러스터 자원 관리를 담당한다.특히, RDD(Resilient D..
이번 글에서는 Apache Spark에 대해 소개 하려고 한다. 큰 목차는 다음과 같다.1. Apache Spark 등장배경2. What is Apache Spark? Apache Spark 등장 배경Spark가 뭔지 알기 전에 왜 Spark가 등장했는지 먼저 알아보자. Spark는 Hadoop MapReduce의 한계를 극복하기 위해 탄생했다. 빅데이터의 처리의 필요성이 급증하면서, MapReduce는 데이터 처리의 핵심 기술로 자리 잡았지만 몇가지 단점이 드러났다.1. 느린 처리 속도MapReduce는 디스크 기반으로 데이터를 처리모든 중간 결과를 디스크에 저장하고 다시 읽어오는 방식은 I/O 오버헤드를 발생시킴2. 복잡한 프로그래밍 모델MapReduce는 데이터 처리 워크플로우를 Map과 Reduc..
난이도: Medium 문제 설명You are given two 0-indexed strings str1 and str2.In an operation, you select a set of indices in str1, and for each index i in the set, increment str1[i] to the next character cyclically. That is 'a' becomes 'b', 'b' becomes 'c', and so on, and 'z' becomes 'a'.Return true if it is possible to make str2 a subsequence of str1 by performing the operation at most once, and false ot..
난이도: Lv. 2 문제 설명어떤 물류 센터는 로봇을 이용한 자동 운송 시스템을 운영합니다. 운송 시스템이 작동하는 규칙은 다음과 같습니다.물류 센터에는 (r, c)와 같이 2차원 좌표로 나타낼 수 있는 n개의 포인트가 존재합니다. 각 포인트는 1~n까지의 서로 다른 번호를 가집니다.로봇마다 정해진 운송 경로가 존재합니다. 운송 경로는 m개의 포인트로 구성되고 로봇은 첫 포인트에서 시작해 할당된 포인트를 순서대로 방문합니다.운송 시스템에 사용되는 로봇은 x대이고, 모든 로봇은 0초에 동시에 출발합니다. 로봇은 1초마다 r 좌표와 c 좌표 중 하나가 1만큼 감소하거나 증가한 좌표로 이동할 수 있습니다.다음 포인트로 이동할 때는 항상 최단 경로로 이동하며 최단 경로가 여러 가지일 경우, r 좌표가 변하는 이..
이번 글에서는 아래 그림과 같이 Hadoop MapReduce를 이용한 word count 실습에 대해 포스팅할 예정이다. MapReduce에 대한 설명은 아래 링크에서 확인할 수 있다.[Hadoop] MapReduce와 YARN 실습에 사용한 환경본 글에서 설명하는 실습은 다음과 같은 환경에서 진행하였다.OSUbuntu 20.04Javaopenjdk-11-jdkHadoophadoop-3.4.0IDEVisual Studio Code 실습 시작실습에 큰 흐름은 다음과 같다.1. HDFS에 txt 파일 저장2. MapReduce 코드 작성3. jar 파일 생성4. 실행5. 결과 확인 1. HDFS에 txt 파일 저장이 단계에서는 단어를 세고 싶은 txt 파..