[Spark] What is RDD, DataFrame, Dataset?
·
Data Engineering/Spark
이번 글에서는 RDD(Resilient Distributed Dataset), DataFrame, Dataset에 대해 정리하려고 한다. Spark의 가장 큰 강점 중 하나가 데이터 처리 방식을 추상화한 위에 3가지를 제공한다는 점이다. 3가지의 도입 시기는 다음과 같다.RDD: spark 1.0DataFrame: spark 1.3Dataset: spark 1.6 (alpha version)이제 각각이 무엇인지 알아보자 본 글의 목차는 다음과 같다.1. RDD (Resilient Distributed Dataset)     1.1. What is RDD?     1.2. Transformation     1.3. Action     1.4. RDD 특징2. DataFrame     2.1. DataFra..