PySpark에서 행 버리기

2021. 4. 20. 22:17

출처

https://stackoverflow.com/questions/24718697/pyspark-drop-rows

PySpark에서 행 버리기

PySpark에서 RDD로부터 행을 어떻게 버릴 수 있을까요? 특별히 첫 번째 행에 제 데이터 셋에 컬럼명이 포함되어 있기 때문입니다. API를 자세히 살펴보면 이 작업을 쉽게 하는 방법을 찾을 수 없는 거 같습니다. 당연히 저는 Bash / HDFS를 통해 이를 할 수 있지만 PySpark로만 이를 할 수 있는 방법을 알고 싶습니다.

6개 답변 중 1개만 추려냄

제가 아는 한 이를 하는 '쉬운' 방법은 없습니다.

그래서 트릭을 수행해야 합니다.

val header = data.first
val rows = data.filter(line => line != header)

'Spark' 카테고리의 다른 글

Spark에서 RDD 계보 정보(리니지): ToDebugString 메소드 (0)	2021.05.10
Spark - 비어있는 Dataset을 만드는 방법 (0)	2021.04.22
Spark Journal: Scala 메소드로부터 여러 개의 dataframe을 리턴 (1)	2019.12.28
스파크 스트리밍에 관해 start(), awaitTermination(), stop()의 사용 사례는 무엇입니까? (0)	2019.05.16
스칼라에서 =와 :=의 차이점은 무엇입니까? (0)	2019.03.29

라이언(Ryan)의 블로그

PySpark에서 행 버리기

PySpark에서 행 버리기

6개 답변 중 1개만 추려냄

'Spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바