Articles of dataframe

Columna dividida en el delimitador en el dataframe

Me gustaría dividir una columna en dos dentro de un dataframe basado en un delimitador. Por ejemplo, a|b b|c convertirse ab bc dentro de un dataframe. ¡Gracias!

Dejar columnas de marcos de datos por nombre

Tengo varias columnas que me gustaría eliminar de un dataframe. Sé que podemos eliminarlos individualmente usando algo como: df$x <- NULL Pero esperaba hacer esto con menos comandos. Además, sé que podría soltar columnas usando índices enteros como este: df <- df[ -c(1, 3:6, 12) ] Pero me preocupa que la posición relativa de mis […]

Cómo pivotar Spark DataFrame?

Estoy empezando a utilizar Spark Dataframes y necesito poder pivotar los datos para crear varias columnas de una columna con varias filas. Hay una funcionalidad incorporada para eso en Scalding y creo en Pandas en python, pero no puedo encontrar nada para el nuevo Spark Dataframe. Supongo que puedo escribir funciones personalizadas de algún tipo […]

Contar el número de filas dentro de cada grupo

Tengo un dataframe y me gustaría contar el número de filas dentro de cada grupo. Regularmente uso la función aggregate para sumr los datos de la siguiente manera: df2 <- aggregate(x ~ Year + Month, data = df1, sum) Ahora, me gustaría contar las observaciones pero no puedo encontrar el argumento adecuado para la FUN […]

Calcule la media por grupo

Tengo un gran dataframe que se parece a esto: df df dive speed 1 dive1 0.80668490 2 dive1 0.53349584 3 dive2 0.07571784 4 dive2 0.39518628 5 dive1 0.84557955 6 dive1 0.69121443 7 dive1 0.38124950 8 dive2 0.22536126 9 dive1 0.04704750 10 dive2 0.93561651 Mi objective es promediar los valores de una columna cuando otra columna […]

Replicar cada fila de data.frame y especificar el número de repeticiones para cada fila

df <- data.frame(var1=c('a', 'b', 'c'), var2=c('d', 'e', 'f'), freq=1:3) ¿Cuál es la forma más sencilla de expandir las dos primeras columnas de data.frame anterior, de modo que cada fila aparezca el número de veces especificado en la columna ‘freq’? En otras palabras, vaya de esto: df var1 var2 freq 1 ad 1 2 be 2 […]

Numeración de filas dentro de grupos en un dataframe

Trabajando con un dataframe similar a esto: set.seed(100) df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15)) df <- df[order(df$cat, df$val), ] df cat val 1 aaa 0.05638315 2 aaa 0.25767250 3 aaa 0.30776611 4 aaa 0.46854928 5 aaa 0.55232243 6 bbb 0.17026205 7 bbb 0.37032054 8 bbb 0.48377074 9 bbb […]

Dividir columna de cadena de dataframe en múltiples columnas

Me gustaría tomar datos del formulario before = data.frame(attr = c(1,30,4,6), type=c(‘foo_and_bar’,’foo_and_bar_2′)) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 y use split() en la columna ” type ” de arriba para obtener algo como esto: attr type_1 type_2 1 1 foo bar 2 30 foo bar_2 3 4 […]

Eliminar filas con todas o algunas NA (valores faltantes) en data.frame

Me gustaría eliminar las líneas en este dataframe que: a) contiene NA s en todas las columnas. A continuación está mi dataframe de ejemplo. gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA NA NA 4 ENSG00000207604 0 NA […]

Cómo unir (combinar) marcos de datos (interno, externo, izquierdo, derecho)?

Dado dos marcos de datos: df1 = data.frame(CustomerId = c(1:6), Product = c(rep(“Toaster”, 3), rep(“Radio”, 3))) df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep(“Alabama”, 2), rep(“Ohio”, 1))) df1 # CustomerId Product # 1 Toaster # 2 Toaster # 3 Toaster # 4 Radio # 5 Radio # 6 Radio df2 # CustomerId State […]