Articles of dataframe

Cómo colocar columnas por nombre en un dataframe

Tengo un gran conjunto de datos y me gustaría leer columnas específicas o soltar todas las demás. data <- read.dta("file.dta") Selecciono las columnas que no me interesan: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")] y de lo que me gustaría hacer algo como: for(i in 1:length(var.out)) { paste(“data$”, var.out[i], sep=””) <- NULL } para […]

Muestra filas aleatorias en el dataframe

Estoy luchando para encontrar la función adecuada que devolvería un número específico de filas recogidas al azar sin reemplazo de un dataframe en el lenguaje R? ¿Puede alguien ayudarme?

Buscar índices de filas duplicadas

La función duplicada en R realiza una búsqueda de fila duplicada. Si queremos eliminar los duplicados, solo necesitamos escribir df[!duplicated(df),] y los duplicados se eliminarán del dataframe. Pero, ¿cómo encontrar los índices de datos duplicados? Si duplicated devuelve TRUE en alguna fila, significa que esta es la segunda ocurrencia de dicha fila en el dataframe […]

¿Cómo combinar múltiples condiciones para subconjuntos de un dataframe usando “O”?

Tengo un data.frame en R. Quiero probar dos condiciones diferentes en dos columnas diferentes, pero quiero que estas condiciones sean inclusivas. Por lo tanto, me gustaría usar “O” para combinar las condiciones. He utilizado la siguiente syntax con mucho éxito cuando quería usar la condición “Y”. my.data.frame 2) & (data$V2 < 4), ] Pero no […]

SparkSQL: aplicar funciones agregadas a una lista de columnas

¿Hay alguna manera de aplicar una función agregada a todas (o una lista de) columnas de un dataframe, cuando se hace un groupBy ? En otras palabras, ¿hay alguna manera de evitar hacer esto para cada columna? df.groupBy(“col1”) .agg(sum(“col2”).alias(“col2”), sum(“col3”).alias(“col3”), …)

DataFrame / Dataset groupBy behavior / optimization

Supongamos que tenemos DataFrame df formado por las siguientes columnas: Nombre, Apellido, Tamaño, Ancho, Longitud, Pesaje Ahora queremos realizar un par de operaciones, por ejemplo, queremos crear un par de DataFrames que contengan datos sobre Tamaño y Ancho. val df1 = df.groupBy(“surname”).agg( sum(“size”) ) val df2 = df.groupBy(“surname”).agg( sum(“width”) ) como puede observar, otras columnas, […]

Concatenar columnas en Apache Spark DataFrame

¿Cómo concatenamos dos columnas en un Apache Spark DataFrame? ¿Hay alguna función en Spark SQL que podamos usar?

Crea un data.frame vacío

Estoy intentando inicializar un data.frame sin filas. Básicamente, quiero especificar los tipos de datos para cada columna y nombrarlos, pero no tengo ninguna fila creada como resultado. Lo mejor que he podido hacer hasta ahora es algo así como: df <- data.frame(Date=as.Date("01/01/2000", format="%m/%d/%Y"), File="", User="", stringsAsFactors=FALSE) df <- df[-1,] Lo cual crea un data.frame con […]

¿Cómo escribir sucintamente una fórmula con muchas variables de un dataframe?

Supongamos que tengo una variable de respuesta y un dato que contiene tres covariables (como un ejemplo de juguete): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Quiero ajustar una regresión lineal a los datos: fit = lm(y ~ d$x1 + d$x2 + d$y2) ¿Hay alguna manera de escribir […]

¿Cómo dividir un dataframe?

Quiero dividir un dataframe en varios más pequeños. Esto parece una pregunta muy trivial, sin embargo, no puedo encontrar una solución desde la búsqueda web.