Articles of apache spark sql

Spark SQL y MySQL- SaveMode.Overwrite no insertando datos modificados

Tengo una tabla de test en MySQL con id y nombre como a continuación: +—-+——-+ | id | name | +—-+——-+ | 1 | Name1 | +—-+——-+ | 2 | Name2 | +—-+——-+ | 3 | Name3 | +—-+——-+ Estoy usando Spark DataFrame para leer estos datos (usando JDBC) y modificar los datos como este […]

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Utilizando Spark 1.5.0 y dado el siguiente código, espero que Union- DataFrame union DataFrame base en su nombre de columna. En el código, estoy usando FunSuite para pasar en SparkContext sc : object Entities { case class A (a: Int, b: Int) case class B (b: Int, a: Int) val as = Seq( A(1,3), A(2,4) […]

Chispa no puede encontrar el controlador JDBC

Así que he estado usando sbt con ensamblado para empaquetar todas mis dependencias en un único contenedor para mis trabajos de chispa. Tengo varios trabajos en los que estaba usando c3p0 para configurar la información del grupo de conexiones, transmitirlo y luego usar foreachPartition en el RDD para luego establecer una conexión e insertar los […]

Cómo guardar DataFrame directamente en Hive?

¿Es posible guardar DataFrame en chispa directamente en Hive? He intentado convertir DataFrame a Rdd y luego guardarlo como archivo de texto y luego cargarlo en la hive. Pero me pregunto si puedo guardar directamente el dataframe en la hive

Diferencia entre DataSet API y DataFrame API

¿Alguien puede ayudarme a entender la diferencia entre la API de DataSet y la API de DataFrame con un ejemplo? ¿Por qué era necesario introducir la API de DataSet?

Error de chispa: cero argumentos esperados para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)

Tengo un dataframe en Spark en el que una de las columnas contiene una matriz. Ahora, he escrito una UDF separada que convierte la matriz en otra matriz con valores distintos solo en ella. Vea el siguiente ejemplo: Ejemplo : [24,23,27,23] debería convertirse a [24, 23, 27] Código: def uniq_array(col_array): x = np.unique(col_array) return x […]

Dejar caer una columna anidada de Spark DataFrame

Tengo un DataFrame con el esquema root |– label: string (nullable = true) |– features: struct (nullable = true) | |– feat1: string (nullable = true) | |– feat2: string (nullable = true) | |– feat3: string (nullable = true) Mientras, puedo filtrar el dataframe usando val data = rawData .filter( !(rawData(“features.feat1”) “100”) ) No […]

¿Cómo puedo pasar parámetros adicionales a UDF en SparkSql?

Quiero analizar las columnas de fecha en un DataFrame , y para cada columna de fecha, la resolución para la fecha puede cambiar (es decir, 2011/01/10 => 2011/01 si la resolución se establece en “Mes”). Escribí el siguiente código: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame = { import org.apache.spark.sql.functions._ val convertDateFunc […]

¿Cómo crear un DataFrame vacío con un esquema específico?

Quiero crear en DataFrame con un esquema especificado en Scala. Intenté usar lectura JSON (me refiero a leer el archivo vacío) pero no creo que sea la mejor práctica.

Cambiar el nombre de los nombres de columna de un DataFrame en Spark Scala

Estoy intentando convertir todos los encabezados / nombres de columna de un DataFrame en Spark-Scala. a partir de ahora se me ocurrió el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length – 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }