Articles of dataframe

Especificar nombres de columna en un data.frame cambia los espacios a “.”

Digamos que tengo un data.frame, así: x <- c(1:10,1:10,1:10,1:10,1:10,1:10,1:10,1:10,1:10,1:10) df <- data.frame("Label 1"=x,"Label 2"=rnorm(100)) cabeza (df, 3) devoluciones: Label.1 Label.2 1 1 1.9825458 2 2 -0.4515584 3 3 0.6397516 ¿Cómo logro que R deje de reemplazar automágicamente el espacio con un punto en el nombre de la columna? es decir, “Etiqueta 1” en lugar de […]

Muestra de dataframe en Apache chispa | Scala

Estoy tratando de extraer muestras de dos dataframes en los que necesito mantener la proporción de conteo. p.ej df1.count() = 10 df2.count() = 1000 noOfSamples = 10 Quiero muestrear los datos de tal manera que obtenga 10 muestras de tamaño 101 cada una (1 de df1 y 100 de df2) Ahora mientras lo haces, var […]

DT Y DT Tratan NA en x inconsistentemente

Esto es algo que pensé que debería hacer después de esta pregunta . Me gustaría confirmar si se trata de una falla / incoherencia antes de archivarla como tal en el rastreador R-forge. Considera esta data.table : require(data.table) DT <- data.table(x=c(1,0,NA), y=1:3) Ahora, para acceder a todas las filas del DT que no son 0, […]

Última observación realizada en un dataframe?

Deseo implementar una “Última observación realizada” para un conjunto de datos en el que estoy trabajando y al que le faltan valores al final. Aquí hay un código simple para hacerlo (pregunta después): LOCF <- function(x) { # Last Observation Carried Forward (for a left to right series) LOCF <- max(which(!is.na(x))) # the location of […]

Spark: resta dos DataFrames

En Spark versión 1.2.0 uno podría usar subtract con 2 SchemRDD para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contiene las filas en todaySchemRDD que no existen en yesterdaySchemaRDD . ¿Cómo se puede lograr esto con DataFrames en Spark versión 1.3.0 ?

Cuente el número de ceros por fila y elimine las filas con más de n ceros

Tengo una pregunta sobre contar los ceros por fila. Tengo un dataframe como este: a = c(1,2,3,4,5,6,0,2,5) b = c(0,0,0,2,6,7,0,0,0) c = c(0,5,2,7,3,1,0,3,0) d = c(1,2,6,3,8,4,0,4,0) e = c(0,4,6,3,8,4,0,6,0) f = c(0,2,5,5,8,4,2,7,4) g = c(0,8,5,4,7,4,0,0,0) h = c(1,3,6,7,4,2,0,4,2) i = c(1,5,3,6,3,7,0,5,3) j = c(1,5,2,6,4,6,8,4,2) DF<- data.frame(a=a,b=b,c=c,d=d,e=e,f=f,g=g,h=h,i=i,j=j) abcdefghij 1 1 0 0 1 0 0 0 […]

Error: el reemplazo tiene filas, los datos tienen

Tengo una columna numérica (“valor”) en un dataframe (“df”) y me gustaría generar una nueva columna (“valueBin”) basada en “valor”. Tengo el siguiente código condicional para definir df $ valueBin: df$valueBin[which(df$value<=250)] <- "250 & df$value<=500)] 500 & df$value<=1000)] 1000 & df$value<=2000)] 2000)] 2,000″ Me aparece el siguiente error: “Error en $<-.data.frame ( *tmp* ,” valueBin […]

Recodificar el factor categórico con N categorías en N columnas binarias

Marco de datos original: v1 = sample(letters[1:3], 10, replace=TRUE) v2 = sample(letters[1:3], 10, replace=TRUE) df = data.frame(v1,v2) df v1 v2 1 aC 2 aa 3 cc 4 ba 5 cc 6 cb 7 aa 8 ab 9 ac 10 ab Nuevo dataframe: new_df = data.frame(row.names=rownames(df)) for (i in colnames(df)) { for (x in letters[1:3]) { […]

Filter spark DataFrame en la cadena contiene

Estoy usando Spark 1.3.0 y Spark Avro 1.0.0 . Estoy trabajando desde el ejemplo en la página del repository . Este siguiente código funciona bien val df = sqlContext.read.avro(“src/test/resources/episodes.avro”) df.filter(“doctor > 5”).write.avro(“/tmp/output”) Pero, ¿qué pasa si necesito ver si la cadena del doctor contiene una subcadena? Ya que estamos escribiendo nuestra expresión dentro de una […]

¿Cómo agrego una fila a un dataframe con totales?

Tengo un dataframe donde me gustaría agregar una fila adicional que sum los valores de las columnas. Por ejemplo, digamos que tengo esta información: x <- data.frame(Language=c("C++", "Java", "Python"), Files=c(4009, 210, 35), LOC=c(15328,876, 200), stringsAsFactors=FALSE) Los datos se ven así: Language Files LOC 1 C++ 4009 15328 2 Java 210 876 3 Python 35 200 […]