Articles of apache spark

¿Cómo puedo calcular la mediana exacta con Apache Spark?

Esta página contiene algunas funciones estadísticas (mean, stdev, varianza, etc.) pero no contiene la mediana. ¿Cómo puedo calcular la mediana exacta? Gracias

Cuadros de datos Spark UPSERT a tabla Postgres

Estoy usando Apache Spark DataFrames para unir dos fonts de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, connectionProperties) Pero, lo que quiero hacer es UPSERT el dataframe en la tabla basada en la clave principal de la tabla. ¿Cómo se […]

Spark 2.0.x vuelca un archivo csv desde un dataframe que contiene una matriz de tipo string

Tengo un dataframe df que contiene una columna de tipo matriz df.show() parece |ID|ArrayOfString|Age|Gender| +–+————-+—+——+ |1 | [A,B,D] |22 | F | |2 | [A,Y] |42 | M | |3 | [X] |60 | F | +–+————-+—+——+ Intento volcar ese df en un archivo csv de la siguiente manera: val dumpCSV = df.write.csv(path=”/home/me/saveDF”) No está […]

Spark, DataFrame: aplicar transformador / estimador en grupos

Tengo un DataFrame que parece seguir: +———–+—–+————+ | userID|group| features| +———–+—–+————+ |12462563356| 1| [5.0,43.0]| |12462563701| 2| [1.0,8.0]| |12462563701| 1| [2.0,12.0]| |12462564356| 1| [1.0,1.0]| |12462565487| 3| [2.0,3.0]| |12462565698| 2| [1.0,1.0]| |12462565698| 1| [1.0,1.0]| |12462566081| 2| [1.0,2.0]| |12462566081| 1| [1.0,15.0]| |12462566225| 2| [1.0,1.0]| |12462566225| 1| [9.0,85.0]| |12462566526| 2| [1.0,1.0]| |12462566526| 1| [3.0,79.0]| |12462567006| 2| [11.0,15.0]| |12462567006| 1| […]

Muestra de dataframe en Apache chispa | Scala

Estoy tratando de extraer muestras de dos dataframes en los que necesito mantener la proporción de conteo. p.ej df1.count() = 10 df2.count() = 1000 noOfSamples = 10 Quiero muestrear los datos de tal manera que obtenga 10 muestras de tamaño 101 cada una (1 de df1 y 100 de df2) Ahora mientras lo haces, var […]

Transformación Spark – ¿Por qué es flojo y cuál es la ventaja?

Spark Transformations se evalúan de forma lazy : cuando llamamos a la acción, ejecuta todas las transformaciones basadas en el gráfico de linaje. ¿Cuál es la ventaja de evaluar Transformations Lazy? ¿Mejorará el performance y se comparará una menor cantidad de memory consumption de memory consumption con una evaluación entusiasta? ¿Hay alguna desventaja de que […]

Método de escritura Spark dataframe escribiendo muchos archivos pequeños

Tengo un trabajo bastante simple para convertir los archivos de registro en parquet. Está procesando 1.1TB de datos (fragmentados en 64MB – 128MB de archivos – nuestro tamaño de bloque es 128MB), que son aproximadamente 12 mil archivos. Job funciona de la siguiente manera: val events = spark.sparkContext .textFile(s”$stream/$sourcetype”) .map(_.split(” \\|\\| “).toList) .collect{case List(date, y, […]

chispa enviar agregar múltiples jarras en classpath

Estoy tratando de ejecutar un progtwig de chispa en el que tengo varios archivos jar, si tuviera un solo contenedor no puedo ejecutarlo. Quiero agregar los dos archivos jar que están en la misma ubicación. He intentado lo siguiente pero muestra un error de dependencia spark-submit \ –class “max” maxjar.jar Book1.csv test \ –driver-class-path /usr/lib/spark/assembly/lib/hive-common-0.13.1-cdh​5.3.0.jar […]

Cuadro de datos del filtro Pyspark por columnas de otro dataframe

No estoy seguro de por qué estoy teniendo un momento difícil con esto, parece tan simple teniendo en cuenta que es bastante fácil de hacer en R o pandas. Sin embargo, quería evitar el uso de pandas ya que estoy lidiando con una gran cantidad de datos, y creo que toPandas() carga todos los datos […]

Spark da StackOverflowError cuando entrena usando ALS

Al intentar entrenar un modelo de aprendizaje automático usando ALS en Spark’s MLLib, seguí recibiendo un StackoverflowError. Aquí hay una pequeña muestra del rastro de la stack: Traceback (most recent call last): File “/Users/user/Spark/imf.py”, line 31, in model = ALS.train(rdd, rank, numIterations) File “/usr/local/Cellar/apache-spark/1.3.1_1/libexec/python/pyspark/mllib/recommendation.py”, line 140, in train lambda_, blocks, nonnegative, seed) File “/usr/local/Cellar/apache-spark/1.3.1_1/libexec/python/pyspark/mllib/common.py”, line […]