
[Spark]스파크 기초 - (3) 데이터프레임과 실행 계획
·
Data/Spark
스파크의 데이터프레임과 실행 계획에 대해 정리한 글입니다. 1. 들어가며스파크의 동작 원리를 이해하기 위해 유튜브의 PySpark - Zero to Hero 시리즈를 듣고, 내용을 정리하고 있습니다. 이번 글에서는 스파크의 대표적인 자료구조인 데이터프레임과 실행 계획에 대해서 다뤄보려고 합니다. 내용 중 부정확하거나 애매한 부분이 있다면, 언제든지 편하게 알려주세요! 2. 데이터프레임데이터프레임(DataFrame)은 스파크에서 데이터를 다룰 때 가장 많이 사용하는 구조적 API입니다. 데이터를 행(row)과 열(column)로 구성된 표 형태로 표현하기 때문에, 엑셀 시트와 비슷하다고 생각하면 이해하기 쉽습니다. 파이썬이나 R을 사용해보셨다면 데이터프레임이라는 개념이 익숙하실텐데요. 다만, 이들 언어에서..