Articles of scala

¿Cómo guardar modelos de ML Pipeline a S3 o HDFS?

Estoy tratando de salvar miles de modelos producidos por ML Pipeline. Como se indica en la respuesta aquí , los modelos se pueden guardar de la siguiente manera: import java.io._ def saveModel(name: String, model: PipelineModel) = { val oos = new ObjectOutputStream(new FileOutputStream(s”/some/path/$name”)) oos.writeObject(model) oos.close } schools.zip(bySchoolArrayModels).foreach{ case (name, model) => saveModel(name, Model) } He […]

No se puede acceder a los miembros de los padres cuando se trata de macro anotaciones

Estoy bloqueado con la siguiente situación ( macro anotación ). Supongamos que tengo una anotación llamada @factory que pretende generar un método de apply para el rasgo anotado en el objeto complementario correspondiente. Por ejemplo, dado el trait A : @factory trait A { val a1: Int } el código esperado para generar es el […]

¿Cómo puedo calcular la mediana exacta con Apache Spark?

Esta página contiene algunas funciones estadísticas (mean, stdev, varianza, etc.) pero no contiene la mediana. ¿Cómo puedo calcular la mediana exacta? Gracias

Cuadros de datos Spark UPSERT a tabla Postgres

Estoy usando Apache Spark DataFrames para unir dos fonts de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, connectionProperties) Pero, lo que quiero hacer es UPSERT el dataframe en la tabla basada en la clave principal de la tabla. ¿Cómo se […]

¿Por qué Scala admite variables ocultas?

Creo que las variables ocultas son demasiado peligrosas para usarlas. ¿Por qué Scala admite esta construcción de lenguaje? Debería haber alguna razón fuerte para eso, pero no puedo encontrarlo.

¿Cuál es la forma más rápida de escribir la función de Fibonacci en Scala?

Revisé algunas implementaciones de la función Fibonacci en Scala, comenzando desde una muy simple hasta las más complicadas . No estoy del todo seguro de cuál es el más rápido. Me estoy inclinando por la impresión de que los que usan la memorización son más rápidos, sin embargo, me pregunto por qué Scala no tiene […]

Scala y referencias hacia adelante

Posible duplicado: Scala: referencias directas: ¿por qué comstack este código? object Omg { class A class B(val a: A) private val b = new B(a) private val a = new A def main(args: Array[String]) { println(ba) } } el siguiente código imprime “nulo”. En java construcción similar no se comstack debido a una referencia directa […]

¿Pueden los proyectos múltiples de GIT usarse como dependencias SBT?

Me gustaría utilizar banana-rdf en mi proyecto, idealmente definiéndolo como una dependencia en un build.scala usando dependsOn : lazy val root = Project(“root”, file(“.”)) dependsOn RootProject(uri(“git://github.com/w3c/banana-rdf”)) Sin embargo, banana-rdf es un proyecto múltiple, por lo que debe componerse de manera diferente . Según lo que puedo ver, estas definiciones de proyectos múltiples solo le permiten […]

Método de escritura Spark dataframe escribiendo muchos archivos pequeños

Tengo un trabajo bastante simple para convertir los archivos de registro en parquet. Está procesando 1.1TB de datos (fragmentados en 64MB – 128MB de archivos – nuestro tamaño de bloque es 128MB), que son aproximadamente 12 mil archivos. Job funciona de la siguiente manera: val events = spark.sparkContext .textFile(s”$stream/$sourcetype”) .map(_.split(” \\|\\| “).toList) .collect{case List(date, y, […]

¿Cuál es la diferencia entre Int y Integer en Scala?

Estaba trabajando con una variable que había declarado como un Entero y descubrí que> no es miembro de Entero. Aquí hay un ejemplo simple: scala> i warning: there were deprecation warnings; re-run with -deprecation for details res28: Integer = 3 scala> i > 3 :6: error: value > is not a member of Integer i […]