Articles of mapreduce

¿Cómo realiza Hadoop las divisiones de entrada?

Esta es una pregunta conceptual que involucra Hadoop / HDFS. Digamos que tienes un archivo que contiene mil millones de líneas. Y por simplicidad, consideremos que cada línea tiene la forma donde k es el desplazamiento de la línea desde el principio y el valor es el contenido de la línea. Ahora, cuando decimos que […]

¿Cómo obtener el nombre del archivo de entrada en el mapeador en un progtwig de Hadoop?

¿Cómo puedo obtener el nombre del archivo de entrada dentro de un mapeador? Tengo varios archivos de entrada almacenados en el directorio de entrada, cada mapeador puede leer un archivo diferente, y necesito saber qué archivo ha leído el mapeador.

soporte gzip en Spark

Para un proyecto de Big Data, estoy planeando utilizar spark , que tiene algunas características agradables como computadores en memoria para cargas de trabajo repetidas. Se puede ejecutar en archivos locales o encima de HDFS. Sin embargo, en la documentación oficial, no puedo encontrar ninguna pista sobre cómo procesar archivos gzip. En la práctica, puede […]

¿Por qué es Spark más rápido que Hadoop Map Reduce?

¿Puede alguien explicar usando el ejemplo del conteo de palabras, por qué Spark sería más rápido que Map Reduce?

MultipleOutputFormat en hadoop

Soy un novato en Hadoop. Estoy probando el progtwig Wordcount. Ahora para probar múltiples archivos de salida, utilizo MultipleOutputFormat . este enlace me ayudó a hacerlo. http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html en mi clase de manejo que tuve MultipleOutputs.addNamedOutput(conf, “even”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class); MultipleOutputs.addNamedOutput(conf, “odd”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class);` y mi clase reducida se convirtió en esto public static class […]

La mejor forma de hacer uno-a-muchos “UNIRSE” en CouchDB

Estoy buscando un CouchDB equivalente a “SQL joins”. En mi ejemplo, hay documentos CouchDB que son elementos de lista: { “type” : “el”, “id” : “1”, “content” : “first” } { “type” : “el”, “id” : “2”, “content” : “second” } { “type” : “el”, “id” : “3”, “content” : “third” } Hay un documento […]

Leyendo archivo como registro único en hadoop

Tengo un gran no. de archivos pequeños, quiero usar CombineFileInputFormat para fusionar los archivos de modo que cada archivo de datos venga como un único registro en mi trabajo de MR. He seguido http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e intenté convertirlo en la nueva API Estoy enfrentando 2 problemas: a) Solo estoy probándolo con 2 archivos pequeños, aún se […]

Eliminar duplicados de MongoDB

hola Tengo ~ 5 millones de documentos en mongodb (replicación) cada documento 43 campos. cómo eliminar un documento duplicado lo intenté db.testkdd.ensureIndex({ duration : 1 , protocol_type : 1 , service : 1 , flag : 1 , src_bytes : 1 , dst_bytes : 1 , land : 1 , wrong_fragment : 1 , urgent […]

Hadoop DistributedCache está en desuso: ¿cuál es la API preferida?

Mis tareas de mapa necesitan algunos datos de configuración, que me gustaría distribuir a través de la memoria caché distribuida. El Tutorial de Hadoop MapReduce muestra el uso de la clase DistributedCache, más o menos de la siguiente manera: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In […]

Encuentre todos los documentos duplicados en una colección MongoDB por un campo clave

Supongamos que tengo una colección con algunos conjuntos de documentos. algo como esto. { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:1, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:2, “name” : “bar”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:3, “name” : “baz”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:4, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:5, “name” : “bar”} { “_id” […]