Requisitos para convertir el dataframe Spark en el dataframe Pandas / R

Estoy ejecutando Spark en el HILO DE Hadoop. ¿Cómo funciona esta conversión? ¿Se realiza un cobro () antes de la conversión?

¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar documentación sobre esto.

Los datos deben recostackrse antes de crear el dataframe local. Por ejemplo, el método de toPandas se ve de la siguiente manera:

 def toPandas(self): import pandas as pd return pd.DataFrame.from_records(self.collect(), columns=self.columns) 

Necesita Python, de manera óptima con todas las dependencias, instalado en cada nodo.

La contraparte SparkR ( as.data.frame ) es simplemente un alias para collect .

Para resumir en ambos casos, los datos se collected en el nodo del controlador y se convierten a la estructura de datos local ( pandas.DataFrame y base::data.frame en Python y R, respectivamente).