Articles of rdd

Spark: resta dos DataFrames

En Spark versión 1.2.0 uno podría usar subtract con 2 SchemRDD para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contiene las filas en todaySchemRDD que no existen en yesterdaySchemaRDD . ¿Cómo se puede lograr esto con DataFrames en Spark versión 1.3.0 ?

Apache Spark: ¿Cuál es la implementación equivalente de RDD.groupByKey () usando RDD.aggregateByKey ()?

Apache Spark pyspark.RDD API menciona que groupByKey() es ineficiente. En su lugar, se recomienda utilizar reduceByKey() , aggregateByKey() , combineByKey() o foldByKey() lugar. Esto dará como resultado que se realice una parte de la agregación en los trabajadores antes de la reorganización, lo que reduce la mezcla de datos entre los trabajadores. Dado el siguiente […]

Cómo obtener elemento por índice en Spark RDD (Java)

Sé el método rdd.first () que me da el primer elemento en un RDD. También está el método rdd.take (num) que me da los primeros elementos “num”. Pero, ¿no existe la posibilidad de obtener un elemento por índice? Gracias.

¿Alguna vez se prefiere groupByKey sobre reduceByKey?

Siempre uso reduceByKey cuando necesito agrupar datos en RDD, porque realiza una reducción del lado del mapa antes de mezclar datos, lo que a menudo significa que se barajan menos datos y así obtengo un mejor rendimiento. Incluso cuando la función de reducción del lado del mapa recostack todos los valores y en realidad no […]

Diferencia entre DataSet API y DataFrame API

¿Alguien puede ayudarme a entender la diferencia entre la API de DataSet y la API de DataFrame con un ejemplo? ¿Por qué era necesario introducir la API de DataSet?

¿Cómo funciona DAG bajo las cubiertas en RDD?

El trabajo de investigación de Spark prescribió un nuevo modelo de progtwigción distribuida sobre el clásico Hadoop MapReduce, afirmando la simplificación y el gran aumento de rendimiento en muchos casos, especialmente en Machine Learning. Sin embargo, el material para descubrir la internal mechanics en Resilient Distributed Datasets con Directed Acyclic Graph parece que falta en […]

¿Por qué la transformación sortBy activa un trabajo Spark?

Según la documentación de Spark, solo las acciones de RDD pueden desencadenar un trabajo de chispa y las transformaciones se evalúan de forma diferida cuando se invoca una acción. Veo que la función de transformación sortBy se aplica inmediatamente y se muestra como un disparador de trabajo en SparkUI. ¿Por qué?

¿Qué operaciones preservan el orden de RDD?

El RDD tiene una orden significativa (a diferencia de alguna orden aleatoria impuesta por el modelo de almacenamiento) si fue procesada por sortBy() , como se explica en esta respuesta . Ahora, ¿qué operaciones conservan esa orden? Por ejemplo, ¿está garantizado que (después de a.sortBy() ) a.map(f).zip(a) === a.map(x => (f(x),x)) Qué tal si a.filter(f).map(g) […]

¿Por qué el parámetro de partición de SparkContext.textFile no tiene efecto?

scala> val p=sc.textFile(“file:///c:/_home/so-posts.xml”, 8) //i’ve 8 cores p: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[56] at textFile at :21 scala> p.partitions.size res33: Int = 729 Esperaba que se imprimieran 8 y veo 729 tareas en Spark UI EDITAR: Después de llamar a repartition() según lo sugerido por @ zero323 scala> p1 = p.repartition(8) scala> p1.partitions.size res60: Int = 8 […]

Cómo leer desde hbase usando chispa

El código a continuación se leerá desde hbase, luego lo convertirá a estructura json y convertirá a schemaRDD, pero el problema es que estoy using List para almacenar la cadena json y luego pasar a javaRDD, para datos de aproximadamente 100 GB, el maestro será cargado con datos en la memoria. ¿Cuál es la forma […]