Articles of hadoop

¿Cómo puedo calcular la mediana exacta con Apache Spark?

Esta página contiene algunas funciones estadísticas (mean, stdev, varianza, etc.) pero no contiene la mediana. ¿Cómo puedo calcular la mediana exacta? Gracias

Problema con -libjars en hadoop

Estoy intentando ejecutar el trabajo de MapReduce en Hadoop, pero estoy enfrentando un error y no estoy seguro de qué está pasando. Tengo que pasar los flasks de la biblioteca que mi mapper requiere. Estoy excitando lo siguiente en la terminal: hadoop @ ubuntu: / usr / local / hadoop $ bin / hadoop jar […]

Crear tabla HIVE con delimitador de caracteres múltiples

Quiero crear una tabla HIVE con caracteres de múltiples cadenas como un delimitador como CREATE EXTERNAL TABlE tableex(id INT, name STRING) ROW FORMAT delimited fields terminated by ‘,’ LINES TERMINATED BY ‘\n’ STORED AS TEXTFILE LOCATION ‘/user/myusername’; Quiero tener delimitador como una cadena múltiple como “~ *”.

No existe tal excepción de método Hadoop

Cuando estoy ejecutando un archivo Hadoop .jar desde el símbolo del sistema, arroja una excepción que dice que no hay método Método StockKey. StockKey es mi clase personalizada definida para mi propio tipo de clave. Aquí está la excepción: 12/07/12 00:18:47 INFO mapred.JobClient: Task Id : attempt_201207082224_0007_m_000000_1, Status : FAILED java.lang.RuntimeException: java.lang.NoSuchMethodException: SecondarySort$StockKey. () at […]

¿La forma más fácil de instalar dependencias de Python en los nodos ejecutores Spark?

Entiendo que puede enviar archivos individuales como dependencias con los progtwigs de Python Spark. Pero ¿qué pasa con las bibliotecas completas (por ejemplo, numpy)? ¿Tiene Spark una forma de utilizar un administrador de paquetes proporcionado (por ejemplo, pip) para instalar dependencias de bibliotecas? ¿O esto tiene que hacerse manualmente antes de que se ejecuten los […]

hadoop: diferencia entre 0 reductor y reductor de identidad?

Solo bash confirmar mi comprensión de la diferencia entre 0 reductor y reductor de identidad. 0 reductor significa que el paso de reducción se saltará y la salida del asignador será la salida final ¿El reductor de identidad significa que la reorganización / clasificación seguirá teniendo lugar?

Ejecución de tareas especulativas de Hadoop

En el documento de MapReduce de Google, tienen una tarea de respaldo, creo que es lo mismo con la tarea especulativa en Hadoop. ¿Cómo se implementa la tarea especulativa? Cuando comienzo una tarea especulativa, ¿la tarea comienza desde el principio como la más antigua y lentamente, o simplemente comienza desde donde ha llegado la tarea […]

¿Cómo realiza Hadoop las divisiones de entrada?

Esta es una pregunta conceptual que involucra Hadoop / HDFS. Digamos que tienes un archivo que contiene mil millones de líneas. Y por simplicidad, consideremos que cada línea tiene la forma donde k es el desplazamiento de la línea desde el principio y el valor es el contenido de la línea. Ahora, cuando decimos que […]

Pig Latin: carga varios archivos de un rango de fechas (parte de la estructura del directorio)

Tengo el siguiente escenario- La versión de cerdo utilizó 0.70 Ejemplo de estructura de directorio HDFS: /user/training/test/20100810/ /user/training/test/20100811/ /user/training/test/20100812/ /user/training/test/20100813/ /user/training/test/20100814/ Como puede ver en las rutas enumeradas anteriormente, uno de los nombres de directorio es un sello de fecha. Problema: quiero cargar archivos de un rango de fechas desde 20100810 a 20100813. Puedo pasar […]

¿Cómo obtener el nombre del archivo de entrada en el mapeador en un progtwig de Hadoop?

¿Cómo puedo obtener el nombre del archivo de entrada dentro de un mapeador? Tengo varios archivos de entrada almacenados en el directorio de entrada, cada mapeador puede leer un archivo diferente, y necesito saber qué archivo ha leído el mapeador.