Articles of dplyr

dplyr en data.table, ¿realmente estoy usando data.table?

Si utilizo la syntax de dplyr sobre una tabla de datos , ¿obtengo todos los beneficios de velocidad de la tabla de datos mientras uso la syntax de dplyr? En otras palabras, ¿mal uso de la tabla de datos si la consulto con la syntax dplyr? ¿O necesito usar syntax pura datatable para aprovechar toda […]

Reemplace NA con valor anterior o siguiente, por grupo, usando dplyr

Tengo un dataframe que está organizado por orden de fecha descendente. ps1 = data.frame(userID = c(21,21,21,22,22,22,23,23,23), color = c(NA,’blue’,’red’,’blue’,NA,NA,’red’,NA,’gold’), age = c(‘3yrs’,’2yrs’,NA,NA,’3yrs’,NA,NA,’4yrs’,NA), gender = c(‘F’,NA,’M’,NA,NA,’F’,’F’,NA,’F’) ) Deseo imputar (reemplazar) valores de NA con valores anteriores y agruparlos por ID de usuario. En caso de que la primera fila de un ID de usuario tenga NA, […]

Manera eficiente de filtrar un dataframe por rangos en otro

Digamos que tengo un dataframe que contiene un montón de datos y una columna de fecha / hora que indica cuándo se recopiló cada punto de datos. Tengo otro dataframe que enumera los intervalos de tiempo, donde una columna “Inicio” indica la fecha / hora en que comienza cada tramo y una columna “Finalizar” que […]

Suma en múltiples columnas con dplyr

Mi pregunta implica resumir los valores en varias columnas de un dataframe y crear una nueva columna correspondiente a esta sum usando dplyr . Las entradas de datos en las columnas son binarias (0,1). Estoy pensando en un análogo row-wise de la función summarise_each o mutate_each de dplyr . A continuación se muestra un ejemplo […]

Use nombres de variables en funciones de dplyr

Quiero usar nombres de variables como cadenas en funciones de dplyr . Vea el ejemplo a continuación: df <- data.frame( color = c("blue", "black", "blue", "blue", "black"), value = 1:5) filter(df, color == "blue") Funciona perfectamente, pero me gustaría referirme a los color por cuerdas, algo como esto: var <- "color" filter(df, this_probably_should_be_a_function(var) == "blue"). […]

Sparklyr: ¿cómo centrar una mesa Spark según la columna?

Tengo una mesa Spark: simx x0: num 1.00 2.00 3.00 … x1: num 2.00 3.00 4.00 … … x788: num 2.00 3.00 4.00 … y un manejador llamado simX_tbl en el entorno R que está conectado a esta tabla simx . Quiero hacer un centrado para esta tabla, que es restar cada columna con sus […]

case_when en mutate pipe

Parece que dplyr::case_when no se comporta como otros comandos en una llamada dplyr::mutate . Por ejemplo: library(dplyr) case_when(mtcars$carb 2 ~ “high”) %>% table trabajos: . high low 15 17 Pero pon case_when en una cadena case_when : mtcars %>% mutate(cg = case_when(carb 2 ~ “high”)) y obtienes: Error: object ‘carb’ not found mientras esto funciona […]

Cómo acelerar el subconjunto por grupos

Solía ​​lograr mi disputa de datos con dplyr, pero algunos de los cálculos son “lentos”. En particular subconjunto por grupos, leo que dplyr es lento cuando hay muchos grupos y en base a estos datos de referencia. La tabla puede ser más rápida, así que comencé a aprender data.table. Aquí es cómo reproducir algo cercano […]

¿Cómo parametrizar llamadas de función en dplyr 0.7?

El lanzamiento de dplyr 0.7 incluye una importante revisión de la progtwigción con dplyr. Leí este documento detenidamente y estoy tratando de comprender cómo afectará mi uso de dplyr. Aquí hay una expresión común que uso cuando construyo informes y funciones de agregación con dplyr: my_report % group_by_(.dots=grouping_vars) %>% summarize(x_mean=mean(x), x_median=median(x), …) } Aquí, grouping_vars […]

Encuentre el número de filas usando dplyr / group_by

Estoy usando el conjunto de datos mtcars . Quiero encontrar la cantidad de registros para una combinación particular de datos. Algo muy similar a la cláusula count(*) group by en SQL. ddply() de plyr me funciona library(plyr) ddply(mtcars, .(cyl,gear),nrow) tiene salida cyl gear V1 1 4 3 1 2 4 4 8 3 4 5 […]