Articles of mapreduce

Problema con -libjars en hadoop

Estoy intentando ejecutar el trabajo de MapReduce en Hadoop, pero estoy enfrentando un error y no estoy seguro de qué está pasando. Tengo que pasar los flasks de la biblioteca que mi mapper requiere. Estoy excitando lo siguiente en la terminal: hadoop @ ubuntu: / usr / local / hadoop $ bin / hadoop jar […]

Mapa Reducir con agentes F #

Después de jugar con agentes de F # intenté hacer un mapa para reducir su uso. La estructura básica que uso es: supervisor de mapas que pone en cola todo el trabajo para hacer en su estado y recibe la solicitud de trabajo de los trabajadores del mapa El supervisor de reducción hace lo mismo […]

No existe tal excepción de método Hadoop

Cuando estoy ejecutando un archivo Hadoop .jar desde el símbolo del sistema, arroja una excepción que dice que no hay método Método StockKey. StockKey es mi clase personalizada definida para mi propio tipo de clave. Aquí está la excepción: 12/07/12 00:18:47 INFO mapred.JobClient: Task Id : attempt_201207082224_0007_m_000000_1, Status : FAILED java.lang.RuntimeException: java.lang.NoSuchMethodException: SecondarySort$StockKey. () at […]

hadoop: diferencia entre 0 reductor y reductor de identidad?

Solo bash confirmar mi comprensión de la diferencia entre 0 reductor y reductor de identidad. 0 reductor significa que el paso de reducción se saltará y la salida del asignador será la salida final ¿El reductor de identidad significa que la reorganización / clasificación seguirá teniendo lugar?

Ejecución de tareas especulativas de Hadoop

En el documento de MapReduce de Google, tienen una tarea de respaldo, creo que es lo mismo con la tarea especulativa en Hadoop. ¿Cómo se implementa la tarea especulativa? Cuando comienzo una tarea especulativa, ¿la tarea comienza desde el principio como la más antigua y lentamente, o simplemente comienza desde donde ha llegado la tarea […]

¿Cómo realiza Hadoop las divisiones de entrada?

Esta es una pregunta conceptual que involucra Hadoop / HDFS. Digamos que tienes un archivo que contiene mil millones de líneas. Y por simplicidad, consideremos que cada línea tiene la forma donde k es el desplazamiento de la línea desde el principio y el valor es el contenido de la línea. Ahora, cuando decimos que […]

¿Cómo obtener el nombre del archivo de entrada en el mapeador en un progtwig de Hadoop?

¿Cómo puedo obtener el nombre del archivo de entrada dentro de un mapeador? Tengo varios archivos de entrada almacenados en el directorio de entrada, cada mapeador puede leer un archivo diferente, y necesito saber qué archivo ha leído el mapeador.

soporte gzip en Spark

Para un proyecto de Big Data, estoy planeando utilizar spark , que tiene algunas características agradables como computadores en memoria para cargas de trabajo repetidas. Se puede ejecutar en archivos locales o encima de HDFS. Sin embargo, en la documentación oficial, no puedo encontrar ninguna pista sobre cómo procesar archivos gzip. En la práctica, puede […]

¿Por qué es Spark más rápido que Hadoop Map Reduce?

¿Puede alguien explicar usando el ejemplo del conteo de palabras, por qué Spark sería más rápido que Map Reduce?

MultipleOutputFormat en hadoop

Soy un novato en Hadoop. Estoy probando el progtwig Wordcount. Ahora para probar múltiples archivos de salida, utilizo MultipleOutputFormat . este enlace me ayudó a hacerlo. http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html en mi clase de manejo que tuve MultipleOutputs.addNamedOutput(conf, “even”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class); MultipleOutputs.addNamedOutput(conf, “odd”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class);` y mi clase reducida se convirtió en esto public static class […]