Articles of apache spark sql

¿Cómo puedo pasar parámetros adicionales a UDF en SparkSql?

Quiero analizar las columnas de fecha en un DataFrame , y para cada columna de fecha, la resolución para la fecha puede cambiar (es decir, 2011/01/10 => 2011/01 si la resolución se establece en “Mes”). Escribí el siguiente código: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame = { import org.apache.spark.sql.functions._ val convertDateFunc […]

¿Cómo crear un DataFrame vacío con un esquema específico?

Quiero crear en DataFrame con un esquema especificado en Scala. Intenté usar lectura JSON (me refiero a leer el archivo vacío) pero no creo que sea la mejor práctica.

Cambiar el nombre de los nombres de columna de un DataFrame en Spark Scala

Estoy intentando convertir todos los encabezados / nombres de columna de un DataFrame en Spark-Scala. a partir de ahora se me ocurrió el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length – 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Cómo usar COGROUP para grandes conjuntos de datos

Tengo dos rdd’s saber val tab_a: RDD[(String, String)] y val tab_b: RDD[(String, String)] Estoy usando cogroup para esos datasets como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } } Estoy utilizando tab_c valores agrupados para la función de mapa y funciona bien para pequeños conjuntos de datos, pero en […]

¿Cómo dividir un dataframe en marcos de datos con los mismos valores de columna?

Usando Scala, ¿cómo puedo dividir el DataFrame en múltiples dataFrame (ya sea matriz o colección) con el mismo valor de columna? Por ejemplo, quiero dividir el siguiente DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46 FL 4 34 AL 5 78 MN 6 99 FL a: conjunto de datos 1 ID […]

Spark SQL consultas vs funciones de dataframe

Para realizar un buen rendimiento con Spark. Me pregunto si es bueno usar consultas sql a través de SQLContext o si es mejor hacer consultas a través de funciones de df.select() como df.select() . ¿Alguna idea? 🙂

Spark sql cómo explotar sin perder valores nulos

Tengo un Dataframe que estoy tratando de aplanar. Como parte del proceso, quiero explotarlo, así que si tengo una columna de matrices, cada valor de la matriz se usará para crear una fila separada. Por ejemplo, id | name | likes _______________________________ 1 | Luke | [baseball, soccer] debe convertirse id | name | likes […]

Lee JSON multilínea en Apache Spark

Estaba tratando de usar un archivo JSON como una pequeña base de datos. Después de crear una tabla de plantillas en DataFrame, lo consulté con SQL y obtuve una excepción. Aquí está mi código: val df = sqlCtx.read.json(“/path/to/user.json”) df.registerTempTable(“user_tt”) val info = sqlCtx.sql(“SELECT name FROM user_tt”) info.show() df.printSchema() resultado: root |– _corrupt_record: string (nullable = […]

SparkSQL: ¿cómo tratar con valores nulos en la función definida por el usuario?

Dada la Tabla 1 con una columna “x” de tipo String. Quiero crear la Tabla 2 con una columna “y” que es una representación entera de las cadenas de fechas dadas en “x”. Esencial es mantener valores null en la columna “y”. Tabla 1 (Dataframe df1): +———-+ | x| +———-+ |2015-09-12| |2015-09-13| | null| | […]

¿Cuál es la diferencia entre Apache Spark SQLContext vs HiveContext?

¿Cuáles son las diferencias entre Apache Spark SQLContext y HiveContext? Algunas fonts dicen que, dado que HiveContext es un superconjunto de SQLContext, los desarrolladores siempre deben usar HiveContext, que tiene más funciones que SQLContext. Pero las API actuales de cada contexto son en su mayoría iguales. ¿Cuáles son los escenarios en los que SQLContext / […]