Articles of hadoop

¿Cómo acceder a los archivos s3a: // desde Apache Spark?

Hadoop 2.6 no es compatible con s3a de fábrica, por lo que he intentado una serie de soluciones y soluciones, que incluyen: implementar con hadoop-aws y aws-java-sdk => no se puede leer la variable de entorno para las credenciales agregar hadoop-aws en maven => diversos conflictos de dependencia transitiva ¿Alguien ha logrado que ambos funcionen […]

Técnicamente, ¿cuál es la diferencia entre s3n, s3a y s3?

Soy consciente de la existencia de https://wiki.apache.org/hadoop/AmazonS3 y las siguientes palabras: S3 Native FileSystem (esquema de URI: s3n) Un sistema de archivos nativo para leer y escribir archivos regulares en S3. La ventaja de este sistema de archivos es que puede acceder a archivos en S3 que se escribieron con otras herramientas. Por el contrario, […]

¿Cuál es la diferencia entre Apache Spark y Apache Flink?

¿Cuáles son las diferencias entre Apache Spark y Apache Flink ? ¿ Apache Flink reemplazará a Hadoop ?

java.sql.SQLException: org.apache.thrift.transport.TTransportException en hive?

Estoy tratando de crear una tabla en una hive con java. encontré java.sql.SQLException: org.apache.thrift.transport.TTransportException mientras ejecuto mi código. Aquí está mi código public void createTable(String tableName) { try{ Statement stat = con.createStatement(); String QueryString = “CREATE TABLE ‘”+tableName+”‘(User_Id INTEGER NOT NULL AUTO_INCREMENT, ” + “User_Name VARCHAR(25), UserId VARCHAR(20), User_Pwd VARCHAR(15), primary key(User_Id))”; a = stat.executeUpdate(QueryString); […]

Importación de Sqoop: clave primaria compuesta y clave primaria textual

Pila: HDP-2.3.2.0-2950 instalado usando Ambari 2.1 El esquema de base de datos fuente está en el servidor SQL y contiene varias tablas que tienen una clave principal como: A varchar Compuesto: dos columnas varchar o una varchar + una columna int o dos columnas int. Hay una gran mesa con? filas que tiene tres columnas […]

Configuración del clúster Hadoop – java.net.ConnectException: conexión rechazada

Quiero configurar un hadoop-cluster en modo pseudo-distribuido. Logré realizar todos los pasos de configuración, incluido el inicio de Namenode, Datanode, Jobtracker y Tasktracker en mi máquina. Luego traté de ejecutar algunos progtwigs ejemplares y me enfrenté a la java.net.ConnectException: Connection refused error de java.net.ConnectException: Connection refused . Volví a los primeros pasos de ejecutar algunas […]

Accediendo al contador de un mapeador desde un reductor

Necesito acceder a los contadores de mi mapeador en mi reductor. es posible? ¿Si es así, Cómo se hace? Como ejemplo: mi asignador es: public class CounterMapper extends Mapper { static enum TestCounters { TEST } @Override protected void map(Text key, Text value, Context context) throws IOException, InterruptedException { context.getCounter(TestCounters.TEST).increment(1); context.write(key, value); } } Mi […]

¿Cómo puedo acceder a S3 / S3n desde una instalación local de Hadoop 2.6?

Estoy tratando de reproducir un clúster de Amazon EMR en mi máquina local. Para ese propósito, he instalado la última versión estable de Hadoop a partir de ahora – 2.6.0 . Ahora me gustaría acceder a un depósito S3, como hago dentro del clúster EMR. He agregado las credenciales aws en core-site.xml: fs.s3.awsAccessKeyId some id […]

Carga de datos de un archivo .txt a la tabla almacenada como ORC en Hive

Tengo un archivo de datos que está en formato .txt . Estoy usando el archivo para cargar datos en tablas de Hive. Cuando cargo el archivo en una tabla como CREATE TABLE test_details_txt( visit_id INT, store_id SMALLINT) STORED AS TEXTFILE; los datos se cargan correctamente usando LOAD DATA LOCAL INPATH ‘/home/user/test_details.txt’ INTO TABLE test_details_txt; y […]

Chispa en la comprensión del concepto de hilo

Estoy tratando de entender cómo se ejecuta la chispa en el clúster / cliente YARN. Tengo la siguiente pregunta en mi mente. ¿Es necesario que la chispa esté instalada en todos los nodos del grupo de hilos? Creo que debería hacerlo porque los nodos de trabajo en el clúster ejecutan una tarea y deberían poder […]