
[Spark] What is RDD, DataFrame, Dataset?
·
Data Engineering/Spark
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset) 1.1. What is RDD? 1.2. Transformation 1.3. Action 1.4. RDD 특징2. DataFrame 2.1. DataFra..