Articles of hadoop

Cómo convertir un archivo .txt al formato de archivo de secuencia de Hadoop

Para utilizar efectivamente los trabajos de reducción de mapas en Hadoop , necesito que los datos se almacenen en el formato de archivo de secuencia de hadoop . Sin embargo, actualmente los datos solo están en formato .txt plano. ¿Alguien puede sugerir una forma de convertir un archivo .txt a un archivo de secuencia?

Error HDFS: solo se pudo replicar en 0 nodos, en lugar de 1

Creé un clúster de hadoop de un nodo ubuntu en EC2. Probar una simple carga de archivos a hdfs funciona desde la máquina EC2, pero no funciona desde una máquina fuera de EC2. Puedo navegar por el sistema de archivos a través de la interfaz web desde la máquina remota, y muestra un nodo de […]

Leyendo archivo como registro único en hadoop

Tengo un gran no. de archivos pequeños, quiero usar CombineFileInputFormat para fusionar los archivos de modo que cada archivo de datos venga como un único registro en mi trabajo de MR. He seguido http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e intenté convertirlo en la nueva API Estoy enfrentando 2 problemas: a) Solo estoy probándolo con 2 archivos pequeños, aún se […]

¿Cómo obtener ID de una tarea de mapa en Spark?

¿Hay alguna manera de obtener ID de una tarea de mapa en Spark? Por ejemplo, si cada tarea de mapa llama a una función definida por el usuario, ¿puedo obtener el ID de esa tarea de mapa desde esa función definida por el usuario?

Establecer el usuario del sistema hadoop para el cliente integrado en la aplicación web Java

Me gustaría enviar trabajos de MapReduce desde una aplicación web Java a un clúster de Hadoop remoto, pero no puedo especificar para qué usuario se debe enviar el trabajo. Me gustaría configurar y usar un usuario del sistema que se debe usar para todos los trabajos de MapReduce. Actualmente no puedo especificar ningún usuario y […]

Hadoop DistributedCache está en desuso: ¿cuál es la API preferida?

Mis tareas de mapa necesitan algunos datos de configuración, que me gustaría distribuir a través de la memoria caché distribuida. El Tutorial de Hadoop MapReduce muestra el uso de la clase DistributedCache, más o menos de la siguiente manera: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In […]

Permiso denegado en hdfs

Soy nuevo en el sistema de archivos distribuido de hadoop, he realizado la instalación completa de hadoop single node en mi máquina. Pero después de eso, cuando voy a cargar datos a hdfs, aparece un mensaje de error Permission Denied . Mensaje de terminal con comando: hduser@ubuntu:/usr/local/hadoop$ hadoop fs -put /usr/local/input-data/ /input put: /usr/local/input-data (Permission […]

Cómo reparar archivos corruptos HDFS

¿Cómo alguien corrige un HDFS que está dañado? Busqué en el sitio web Apache / Hadoop y decía su comando fsck , que no lo soluciona. Con suerte, alguien que haya tenido este problema antes puede decirme cómo solucionarlo. A diferencia de una utilidad fsck tradicional para sistemas de archivos nativos, este comando no corrige […]

Oozie: Lanza Map-Reduce from Oozie action?

Estoy intentando ejecutar una tarea Map-Reduce en un flujo de trabajo Oozie usando una acción . Apache Oozie de O’Reilley (Islam y Srinivasan 2015) señala que: Si bien no se recomienda, la acción de Java se puede utilizar para ejecutar trabajos de Hadoop MapReduce porque los trabajos de MapReduce no son más que progtwigs de […]

hadoop.mapred vs hadoop.mapreduce?

¿Por qué hay dos paquetes separados paquete map-reduce en el árbol de paquetes hadoop de Apache: org.apache.hadoop.mapred http://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapred/ org.apache.hadoop.mapreduce http://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapreduce/ ¿Por qué están separados? ¿Hay documentación que aclare esto?