Articles of dplyr

operaciones agrupadas que dan como resultado una longitud no igual a 1 o una longitud de grupo en dplyr

No estoy seguro de qué función usar para hacer lo siguiente: library(data.table) dt = data.table(a = 1:4, b = 1:2) dt[, rep(a[1], 3), by = b] # b V1 #1: 1 1 #2: 1 1 #3: 1 1 #4: 2 2 #5: 2 2 #6: 2 2 Ambos summarise y mutate están contentos con esta […]

cómo agregar valores acumulativamente en un vector en R

Tengo un conjunto de datos que se parece a esto id name year job job2 1 Jane 1980 Worker 0 1 Jane 1981 Manager 1 1 Jane 1982 Manager 1 1 Jane 1983 Manager 1 1 Jane 1984 Manager 1 1 Jane 1985 Manager 1 1 Jane 1986 Boss 0 1 Jane 1987 Boss 0 […]

dplyr :: mutate para agregar valores múltiples

Hay un par de cuestiones sobre esto en el repository Dplyr Github , y al menos una pregunta SO relacionada, pero ninguna de ellas cubre mi pregunta, creo. Agregar varias columnas en una llamada de mutación dplyr es más o menos lo que quiero, pero hay una respuesta de caso especial para ese caso ( […]

Usar spread con identificadores duplicados para filas

Tengo un dataframe de forma larga que tiene entradas múltiples para la misma fecha y persona. jj <- data.frame(month=rep(1:3,4), student=rep(c("Amy", "Bob"), each=6), A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5), B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5)) Quiero convertirlo a formato ancho y hacerlo así: month […]

Emular split () con dplyr group_by: devuelve una lista de marcos de datos

Tengo un gran conjunto de datos que estrangula split() en R. Puedo usar dplyr group_by (que es una forma preferida de todos modos) pero no puedo persistir en el grouped_df resultante como una lista de marcos de datos, un formato requerido por mi consecutivo pasos de procesamiento (necesito forzar a SpatialDataFrames y similares). considere un […]

Pase un vector de nombres de variables para arreglar () en dplyr

Quiero pasar arrange() {dplyr} un vector de nombres de variables para ordenar. Usualmente escribo las variables que quiero, pero estoy tratando de hacer una función donde las variables de clasificación se puedan ingresar como un parámetro de función. df % arrange(var3, var4) # but none of these (below) work for passing a vector of variables […]

dplyr en data.table, ¿realmente estoy usando data.table?

Si utilizo la syntax de dplyr sobre una tabla de datos , ¿obtengo todos los beneficios de velocidad de la tabla de datos mientras uso la syntax de dplyr? En otras palabras, ¿mal uso de la tabla de datos si la consulto con la syntax dplyr? ¿O necesito usar syntax pura datatable para aprovechar toda […]

Reemplace NA con valor anterior o siguiente, por grupo, usando dplyr

Tengo un dataframe que está organizado por orden de fecha descendente. ps1 = data.frame(userID = c(21,21,21,22,22,22,23,23,23), color = c(NA,’blue’,’red’,’blue’,NA,NA,’red’,NA,’gold’), age = c(‘3yrs’,’2yrs’,NA,NA,’3yrs’,NA,NA,’4yrs’,NA), gender = c(‘F’,NA,’M’,NA,NA,’F’,’F’,NA,’F’) ) Deseo imputar (reemplazar) valores de NA con valores anteriores y agruparlos por ID de usuario. En caso de que la primera fila de un ID de usuario tenga NA, […]

Manera eficiente de filtrar un dataframe por rangos en otro

Digamos que tengo un dataframe que contiene un montón de datos y una columna de fecha / hora que indica cuándo se recopiló cada punto de datos. Tengo otro dataframe que enumera los intervalos de tiempo, donde una columna “Inicio” indica la fecha / hora en que comienza cada tramo y una columna “Finalizar” que […]

Suma en múltiples columnas con dplyr

Mi pregunta implica resumir los valores en varias columnas de un dataframe y crear una nueva columna correspondiente a esta sum usando dplyr . Las entradas de datos en las columnas son binarias (0,1). Estoy pensando en un análogo row-wise de la función summarise_each o mutate_each de dplyr . A continuación se muestra un ejemplo […]