Articles of mapreduce

La mejor forma de hacer uno-a-muchos “UNIRSE” en CouchDB

Estoy buscando un CouchDB equivalente a “SQL joins”. En mi ejemplo, hay documentos CouchDB que son elementos de lista: { “type” : “el”, “id” : “1”, “content” : “first” } { “type” : “el”, “id” : “2”, “content” : “second” } { “type” : “el”, “id” : “3”, “content” : “third” } Hay un documento […]

Leyendo archivo como registro único en hadoop

Tengo un gran no. de archivos pequeños, quiero usar CombineFileInputFormat para fusionar los archivos de modo que cada archivo de datos venga como un único registro en mi trabajo de MR. He seguido http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e intenté convertirlo en la nueva API Estoy enfrentando 2 problemas: a) Solo estoy probándolo con 2 archivos pequeños, aún se […]

Eliminar duplicados de MongoDB

hola Tengo ~ 5 millones de documentos en mongodb (replicación) cada documento 43 campos. cómo eliminar un documento duplicado lo intenté db.testkdd.ensureIndex({ duration : 1 , protocol_type : 1 , service : 1 , flag : 1 , src_bytes : 1 , dst_bytes : 1 , land : 1 , wrong_fragment : 1 , urgent […]

Hadoop DistributedCache está en desuso: ¿cuál es la API preferida?

Mis tareas de mapa necesitan algunos datos de configuración, que me gustaría distribuir a través de la memoria caché distribuida. El Tutorial de Hadoop MapReduce muestra el uso de la clase DistributedCache, más o menos de la siguiente manera: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In […]

Encuentre todos los documentos duplicados en una colección MongoDB por un campo clave

Supongamos que tengo una colección con algunos conjuntos de documentos. algo como esto. { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:1, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:2, “name” : “bar”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:3, “name” : “baz”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:4, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:5, “name” : “bar”} { “_id” […]

Oozie: Lanza Map-Reduce from Oozie action?

Estoy intentando ejecutar una tarea Map-Reduce en un flujo de trabajo Oozie usando una acción . Apache Oozie de O’Reilley (Islam y Srinivasan 2015) señala que: Si bien no se recomienda, la acción de Java se puede utilizar para ejecutar trabajos de Hadoop MapReduce porque los trabajos de MapReduce no son más que progtwigs de […]

hadoop.mapred vs hadoop.mapreduce?

¿Por qué hay dos paquetes separados paquete map-reduce en el árbol de paquetes hadoop de Apache: org.apache.hadoop.mapred http://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapred/ org.apache.hadoop.mapreduce http://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapreduce/ ¿Por qué están separados? ¿Hay documentación que aclare esto?

Comparación de agregación de MongoDB: group (), $ group y MapReduce

Estoy algo confundido acerca de cuándo usar group (), aggregate con $ group o mapreduce. Leí la documentación en http://www.mongodb.org/display/DOCS/Aggregation para group (), http://docs.mongodb.org/manual/reference/aggregation/group/#_S_group for $ group .. ¿Sharding es la única situación en la que group () no funcionará? Además, tengo la sensación de que $ group es más poderoso que group () porque […]

Usar map / reduce para mapear las propiedades en una colección

Actualización: seguimiento de MongoDB Obtenga los nombres de todas las claves en la colección . Como señaló Kristina , se puede usar el mapa / reducir de Mongodb para enumerar las claves de una colección: db.things.insert( { type : [‘dog’, ‘cat’] } ); db.things.insert( { egg : [‘cat’] } ); db.things.insert( { type : [] […]

Encadenando múltiples trabajos de MapReduce en Hadoop

En muchas situaciones de la vida real donde aplica MapReduce, los algoritmos finales terminan siendo varios pasos de MapReduce. es decir, Map1, Reduce1, Map2, Reduce2, y así sucesivamente. Por lo tanto, tiene la salida de la última reducción que se necesita como entrada para el siguiente mapa. Los datos intermedios son algo que (en general) […]