Articles of apache spark

¿Qué es una tarea en Spark? ¿Cómo ejecuta el trabajador de Spark el archivo jar?

Después de leer algún documento en http://spark.apache.org/docs/0.8.0/cluster-overview.html , recibí una pregunta que quiero aclarar. Toma este ejemplo de Spark: JavaSparkContext spark = new JavaSparkContext( new SparkConf().setJars(“…”).setSparkHome….); JavaRDD file = spark.textFile(“hdfs://…”); // step1 JavaRDD words = file.flatMap(new FlatMapFunction() { public Iterable call(String s) { return Arrays.asList(s.split(” “)); } }); // step2 JavaPairRDD pairs = words.map(new PairFunction() […]

¿Cómo acceder a los archivos s3a: // desde Apache Spark?

Hadoop 2.6 no es compatible con s3a de fábrica, por lo que he intentado una serie de soluciones y soluciones, que incluyen: implementar con hadoop-aws y aws-java-sdk => no se puede leer la variable de entorno para las credenciales agregar hadoop-aws en maven => diversos conflictos de dependencia transitiva ¿Alguien ha logrado que ambos funcionen […]

¿Cuál es la diferencia entre Apache Spark y Apache Flink?

¿Cuáles son las diferencias entre Apache Spark y Apache Flink ? ¿ Apache Flink reemplazará a Hadoop ?

Spark Scala: Cómo convertir Dataframe a DataFrame

Acabo de utilizar Standard Scaler para normalizar mis funciones para una aplicación ML. Después de seleccionar las características escaladas, quiero convertir esto de nuevo a un dataframe de Dobles, aunque la longitud de mis vectores es arbitraria. Sé cómo hacerlo para un 3 características específicas mediante el uso de myDF.map{case Row(v: Vector) => (v(0), v(1), […]

Spark SQL y MySQL- SaveMode.Overwrite no insertando datos modificados

Tengo una tabla de test en MySQL con id y nombre como a continuación: +—-+——-+ | id | name | +—-+——-+ | 1 | Name1 | +—-+——-+ | 2 | Name2 | +—-+——-+ | 3 | Name3 | +—-+——-+ Estoy usando Spark DataFrame para leer estos datos (usando JDBC) y modificar los datos como este […]

llamada de distinto y mapa juntos lanza NPE en la biblioteca de chispa

No estoy seguro si esto es un error, así que si haces algo como esto // d:spark.RDD[String] d.distinct().map(x => d.filter(_.equals(x))) obtendrás un Java NPE. Sin embargo, si haces un collect inmediatamente después de distinct , todo estará bien. Estoy usando la chispa 0.6.1.

¿Cómo vectorizar columnas de DataFrame para algoritmos de ML?

tener un DataFrame con algunos valores de cadena categóricos (por ejemplo, uuid | url | browser). Me gustaría convertirlo en un doble para ejecutar un algoritmo ML que acepte doble matriz. Como método de conversión utilicé StringIndexer (chispa 1.4) que correlaciona mis valores de cadena con valores dobles, así que definí una función como esta: […]

¿Cómo puedo detectar si un dataframe de chispa tiene una columna

Cuando creo un DataFrame a partir de un archivo json en spark sql, ¿cómo puedo saber si existe una columna antes de llamar a .select ejemplo, por ejemplo, el esquema json { “a”: { “b”: 1, “c”: 2 } } Esto es lo que quiero hacer: potential_columns = Seq(“b”, “c”, “d”) df = sqlContext.read.json(filename) potential_columns.map(column […]

Acceda a la columna Array en Spark

un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando bash recuperarla en una función map (). El siguiente código scala genera una excepción. case class Dummy( x:Array[Double] ) val df = sqlContext.createDataFrame(Seq(Dummy(Array(1,2,3)))) val s = df.map( r => { val arr:Array[Double] = r.getAs[Array[Double]](“x”) arr.sum }) s.foreach(println) La excepción es […]

java.lang.NoClassDefFoundError: org / apache / spark / streaming / twitter / TwitterUtils $ mientras se ejecuta TwitterPopularTags

Soy un principiante en Streaming Spark y Scala. Para un requisito del proyecto, estaba tratando de ejecutar el ejemplo de TwitterPopularTags presente en github. Como la asamblea SBT no funcionaba para mí y no estaba familiarizado con SBT, estoy tratando de utilizar Maven para la construcción. Después de muchos contratiempos iniciales, pude crear el archivo […]