반응형
출처 : https://stackoverflow.com/questions/34629313/how-to-measure-the-execution-time-of-a-query-on-spark
Spark에서 쿼리의 실행 시간을 측정하는 방법
저는 Apache spark (Bluemix)에서 쿼리의 실행 시간을 측정할 필요가 있습니다. 제가 시도한 내용입니다.
import time
startTimeQuery = time.clock()
df = sqlContext.sql(query)
df.show()
endTimeQuery = time.clock()
runTimeQuery = endTimeQuery - startTimeQuery
좋은 방법입니까? 제가 얻은 시간은 테이블에서 보았을 때 상대적으로 너무 작은 거 같습니다.
9 개의 답변 중 1 개의 답변
spark-shell(Scala) 에서 이를 하기 위해서, spark.time()
를 사용할 수 있습니다..
저의 다른 답변도 보실 수 있습니다 : https://stackoverflow.com/questions/36389019/spark-query-execution-time/50289329#50289329
df = sqlContext.sql(query)
spark.time(df.show())
출력은 다음처럼 나올 것입니다.
+----+----+
|col1|col2|
+----+----+
|val1|val2|
+----+----+
Time taken: xxx ms
반응형
'Spark' 카테고리의 다른 글
Spark에서 RDD 계보 정보(리니지): ToDebugString 메소드 (0) | 2021.05.10 |
---|---|
Spark - 비어있는 Dataset을 만드는 방법 (0) | 2021.04.22 |
PySpark에서 행 버리기 (0) | 2021.04.20 |
Spark Journal: Scala 메소드로부터 여러 개의 dataframe을 리턴 (0) | 2019.12.28 |
스파크 스트리밍에 관해 start(), awaitTermination(), stop()의 사용 사례는 무엇입니까? (0) | 2019.05.16 |