Articles of apache spark sql

Mejor forma de convertir un campo de cadena en timestamp en Spark

Tengo un CSV en el que un campo es datetime en un formato específico. No puedo importarlo directamente en mi Dataframe porque necesita ser una marca de tiempo. Así que lo importo como una cadena y lo convierto en una Timestamp como esta import java.sql.Timestamp import java.text.SimpleDateFormat import java.util.Date import org.apache.spark.sql.Row def getTimestamp(x:Any) : Timestamp […]

Filter spark DataFrame en la cadena contiene

Estoy usando Spark 1.3.0 y Spark Avro 1.0.0 . Estoy trabajando desde el ejemplo en la página del repository . Este siguiente código funciona bien val df = sqlContext.read.avro(“src/test/resources/episodes.avro”) df.filter(“doctor > 5”).write.avro(“/tmp/output”) Pero, ¿qué pasa si necesito ver si la cadena del doctor contiene una subcadena? Ya que estamos escribiendo nuestra expresión dentro de una […]

Incluyendo valores nulos en Apache Spark Join

Me gustaría incluir valores nulos en una unión Apache Spark. Spark no incluye filas con nulo por defecto. Aquí está el comportamiento predeterminado de Spark. val numbersDf = Seq( (“123”), (“456”), (null), (“”) ).toDF(“numbers”) val lettersDf = Seq( (“123”, “abc”), (“456”, “def”), (null, “zzz”), (“”, “hhh”) ).toDF(“numbers”, “letters”) val joinedDf = numbersDf.join(lettersDf, Seq(“numbers”)) Aquí está […]

Spark Row a JSON

Me gustaría crear un JSON a partir de un dataframe de Spark v.1.6 (con scala). Sé que existe la solución simple de hacer df.toJSON . Sin embargo, mi problema se ve un poco diferente. Considere por ejemplo un dataframe con las siguientes columnas: | A | B | C1 | C2 | C3 | ——————————————- […]

Columna de cadena Split Spark Dataframe en múltiples columnas

He visto a varias personas sugiriendo que Dataframe.explode es una forma útil de hacerlo, pero resulta en más filas que el dataframe original, que no es lo que quiero en absoluto. Simplemente quiero hacer el dataframe equivalente al muy simple: rdd.map(lambda row: row + [row.my_str_col.split(‘-‘)]) que toma algo que se parece a: col1 | my_str_col […]

Automáticamente y elegantemente aplana DataFrame en Spark SQL

Todas, ¿Existe una forma elegante y aceptada de aplanar una tabla Spark SQL (Parquet) con columnas que son de StructType nested StructType Por ejemplo Si mi esquema es: foo |_bar |_baz x y z ¿Cómo lo selecciono en una forma tabular plana sin recurrir a ejecutar manualmente? df.select(“foo.bar”,”foo.baz”,”x”,”y”,”z”) En otras palabras, ¿cómo StructType el resultado […]

Spark SQL y MySQL- SaveMode.Overwrite no insertando datos modificados

Tengo una tabla de test en MySQL con id y nombre como a continuación: +—-+——-+ | id | name | +—-+——-+ | 1 | Name1 | +—-+——-+ | 2 | Name2 | +—-+——-+ | 3 | Name3 | +—-+——-+ Estoy usando Spark DataFrame para leer estos datos (usando JDBC) y modificar los datos como este […]

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Utilizando Spark 1.5.0 y dado el siguiente código, espero que Union- DataFrame union DataFrame base en su nombre de columna. En el código, estoy usando FunSuite para pasar en SparkContext sc : object Entities { case class A (a: Int, b: Int) case class B (b: Int, a: Int) val as = Seq( A(1,3), A(2,4) […]

Chispa no puede encontrar el controlador JDBC

Así que he estado usando sbt con ensamblado para empaquetar todas mis dependencias en un único contenedor para mis trabajos de chispa. Tengo varios trabajos en los que estaba usando c3p0 para configurar la información del grupo de conexiones, transmitirlo y luego usar foreachPartition en el RDD para luego establecer una conexión e insertar los […]

Cómo guardar DataFrame directamente en Hive?

¿Es posible guardar DataFrame en chispa directamente en Hive? He intentado convertir DataFrame a Rdd y luego guardarlo como archivo de texto y luego cargarlo en la hive. Pero me pregunto si puedo guardar directamente el dataframe en la hive