Articles of dataframe

Repite las filas de un data.frame

Quiero repetir las filas de un data.frame, cada N veces. El resultado debe ser un nuevo data.frame (con nrow(new.df) == nrow(old.df) * N ) manteniendo los tipos de datos de las columnas. Ejemplo para N = 2: ABC ABC 1 ji 100 1 ji 100 –> 2 ji 100 2 KP 101 3 KP 101 […]

¿Cómo crear un DataFrame vacío con un esquema específico?

Quiero crear en DataFrame con un esquema especificado en Scala. Intenté usar lectura JSON (me refiero a leer el archivo vacío) pero no creo que sea la mejor práctica.

Combina dos marcos de datos manteniendo el orden de fila original

Quiero unir dos marcos de datos manteniendo el orden de fila original de uno de ellos ( df.2 en el ejemplo a continuación). Aquí hay algunos datos de muestra (todos los valores de class columna de class están definidos en ambos marcos de datos): df.1 <- data.frame(class = c(1, 2, 3), prob = c(0.5, 0.7, […]

¿Cómo se eliminan las columnas de un data.frame?

No tanto ‘¿Cómo …?’ pero más ‘¿Cómo PUEDES …?’ Si tiene un archivo que alguien le da con 200 columnas, y desea reducirlo a las pocas que necesita para el análisis, ¿cómo lo hace? ¿Una solución ofrece beneficios sobre otra? Suponiendo que tenemos un dataframe con columnas col1, col2 a col200. Si solo quería 1-100 […]

¿Por qué es plyr tan lento?

Creo que estoy usando plyr incorrectamente. ¿Podría alguien decirme si se trata de un código plyr ‘eficiente’? require(plyr) plyr <- function(dd) ddply(dd, .(price), summarise, ss=sum(volume)) Un pequeño contexto: tengo algunos grandes problemas de agregación y he notado que cada uno tomaba algo de tiempo. Al tratar de resolver los problemas, me interesé en la realización […]

Cambiar el nombre de los nombres de columna de un DataFrame en Spark Scala

Estoy intentando convertir todos los encabezados / nombres de columna de un DataFrame en Spark-Scala. a partir de ahora se me ocurrió el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length – 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

¿Cómo dividir un dataframe en marcos de datos con los mismos valores de columna?

Usando Scala, ¿cómo puedo dividir el DataFrame en múltiples dataFrame (ya sea matriz o colección) con el mismo valor de columna? Por ejemplo, quiero dividir el siguiente DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46 FL 4 34 AL 5 78 MN 6 99 FL a: conjunto de datos 1 ID […]

Inserte aleatoriamente las NA en la proporcionalidad del dataframe

Tengo un dataframe completo. Quiero que el 20% de los valores en el dataframe sean reemplazados por NA para simular datos faltantes aleatorios. A <- c(1:10) B <- c(11:20) C <- c(21:30) df<- data.frame(A,B,C) ¿Alguien puede sugerir una manera rápida de hacer eso?

Eliminar columnas de un data.frame donde NA es más del 15% de la longitud de la columna

Tengo un data.frame de 10 columnas diferentes (la longitud de cada columna es la misma). Quiero eliminar cualquier columna que tenga ‘ NA ‘ mayor que el 15% de la longitud de la columna. ¿Es necesario primero hacer una función para calcular el porcentaje de NA para cada columna y luego hacer otro data.frame donde […]

Dividir el dataframe en múltiples archivos de salida

Tengo un gran conjunto de datos (pero el siguiente es pequeño, por ejemplo). Puedo dividir el dataframe y luego quiero dar salida a un archivo de texto múltiple correspondiente a lavel utilizado para dividir. mydata <- data.frame (var1 = rep(c("k", "l", "c"), each = 5), var2 = rnorm(5), var3 = rnorm(5)) mydata var1 var2 var3 […]