Articles of plyr

Unir los valores agregados al dataframe original

Uno de los patrones de diseño que uso una y otra vez es realizar un “grupo por” o “dividir, aplicar, combinar (SAC)” en un dataframe y luego unir los datos agregados a los datos originales. Esto es útil, por ejemplo, al calcular la desviación de cada condado de la media del estado en un dataframe […]

Encuentre el número de filas usando dplyr / group_by

Estoy usando el conjunto de datos mtcars . Quiero encontrar la cantidad de registros para una combinación particular de datos. Algo muy similar a la cláusula count(*) group by en SQL. ddply() de plyr me funciona library(plyr) ddply(mtcars, .(cyl,gear),nrow) tiene salida cyl gear V1 1 4 3 1 2 4 4 8 3 4 5 […]

¿Por qué es plyr tan lento?

Creo que estoy usando plyr incorrectamente. ¿Podría alguien decirme si se trata de un código plyr ‘eficiente’? require(plyr) plyr <- function(dd) ddply(dd, .(price), summarise, ss=sum(volume)) Un pequeño contexto: tengo algunos grandes problemas de agregación y he notado que cada uno tomaba algo de tiempo. Al tratar de resolver los problemas, me interesé en la realización […]

R: acelerar las operaciones de “agrupar por”

Tengo una simulación que tiene un gran agregado y un paso combinado en el medio. Creé un prototipo de este proceso utilizando la función ddply () de plyr, que funciona muy bien para un gran porcentaje de mis necesidades. Pero necesito que este paso de agregación sea más rápido ya que tengo que ejecutar simulaciones […]

Cómo reemplazar NA con media por subconjunto en R (imputar con plyr?)

Tengo un dataframe con la longitud y el ancho de varios artrópodos de las entrañas de las salamandras. Debido a que algunas agallas tenían miles de ciertos artículos de presa, solo medí un subconjunto de cada tipo de presa. Ahora quiero reemplazar cada individuo no medido con el largo y ancho promedio para esa presa. […]

¿Qué significa el punto en R – preferencia personal, convención de nomenclatura o más?

Estoy (probablemente) NO refiriéndome al “todas las demás variables”, que quiere decir var1~. aquí. Fui señalado a plyr una vez más y miré en mlply y me pregunté por qué los parámetros se definen con un punto mlply como este: function (.data, .fun = NULL, …, .expand = TRUE, .progress = “none”, .parallel = FALSE) […]

significado del error ddply: el atributo ‘nombres’ debe tener la misma longitud que el vector

Estoy pasando por Machine Learning for Hackers, y estoy atrapado en esta línea: from.weight <- ddply(priority.train, .(From.EMail), summarise, Freq = length(Subject)) Lo cual genera el siguiente error: Error in attributes(out) <- attributes(col) : 'names' attribute [9] must be the same length as the vector [1] Este es un traceback (): > traceback() 11: FUN(1:5[[1L]], …) […]

¿Hay una función R que aplica una función a cada par de columnas?

A menudo necesito aplicar una función a cada par de columnas en un dataframe / matriz y devolver los resultados en una matriz. Ahora siempre escribo un ciclo para hacer esto. Por ejemplo, para hacer una matriz que contenga los valores p de las correlaciones, escribo: df <- data.frame(x=rnorm(100),y=rnorm(100),z=rnorm(100)) n <- ncol(df) foo <- matrix(0,n,n) […]

Agregue un dataframe basado en pares de columnas desordenadas

Tengo un conjunto de datos que se ve así: id1 id2 size 1 5400 5505 7 2 5033 5458 1 3 5452 2873 24 4 5452 5213 2 5 5452 4242 26 6 4823 4823 4 7 5505 5400 11 Donde id1 e id2 son nodos únicos en un gráfico, y el size es un […]

Cómo dividir strsplit diferentes números de cadenas en cierta columna por función

Tengo un problema con el valor de columna dividida cuando el elemento de la columna tiene una cantidad diferente de cadenas. Puedo hacerlo en plyr por ejemplo: library(plyr) column <- c("jake", "jane jane","john john john") df <- data.frame(1:3, name = column) df$name <- as.character(df$name) df2 <- ldply(strsplit(df$name, " "), rbind) View(df2) Como resultado, tenemos un […]