Articles of dataframe

Generar contenedores desde un dataframe

Usando python, he creado el siguiente dataframe que contiene valores de similitud: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0.6147309 0.6984127 0.00000000 3 0.514 0.426 0.692 0.36440678 0.4787535 0.5198413 0.05882353 4 0.102 0.430 0.739 0.11297071 0.5288008 0.5436508 0.00000000 5 0.560 0.735 0.554 […]

Reemplazo condicional de valores en un data.frame

Estoy tratando de entender cómo reemplazar valores condicionales en un dataframe sin usar un bucle. Mi dataframe está estructurado de la siguiente manera: > df ab est 1 11.77000 2 0 2 10.90000 3 0 3 10.32000 2 0 4 10.96000 0 0 5 9.90600 0 0 6 10.70000 0 0 7 11.43000 1 0 […]

¿Agregar una nueva fila al dataframe, en un índice de fila específico, sin agregar?

El siguiente código combina un vector con un dataframe: newrow = c(1:4) existingDF = rbind(existingDF,newrow) Sin embargo, este código siempre inserta la nueva fila al final del dataframe. ¿Cómo puedo insertar la fila en un punto específico dentro del dataframe? Por ejemplo, supongamos que el dataframe tiene 20 filas, ¿cómo puedo insertar la nueva fila […]

Dividir una columna en múltiples columnas ficticias binarias

Estoy tratando de dividir una sola variable de “carácter” en mi dataframe en varias variables de “factor”. > sampledf=data.frame(vin=c(‘v1′,’v2′,’v3’),features=c(‘f1:f2:f3′,’f2:f4:f5′,’f1:f4:f5’)) > sampledf vin features 1 v1 f1:f2:f3 2 v2 f2:f4:f5 3 v3 f1:f4:f5 > desireddf=data.frame(vin=c(‘v1′,’v2′,’v3’),f1=c(1,0,1),f2=c(1,1,0),f3=c(1,0,0),f4=c(0,1,1),f5=c(0,1,1)) > desireddf vin f1 f2 f3 f4 f5 1 v1 1 1 1 0 0 2 v2 0 1 0 1 […]

¿Cómo extraigo una sola columna de un data.frame como un data.frame?

Digamos que tengo un data.frame: df <- data.frame(A=c(10,20,30),B=c(11,22,33), C=c(111,222,333)) ABC 1 10 11 111 2 20 22 222 3 30 33 333 Si selecciono dos (o más) columnas obtengo un data.frame: x <- df[,1:2] AB 1 10 11 2 20 22 3 30 33 Esto es lo que quiero. Sin embargo, si selecciono solo una […]

La lista más eficiente para el método data.frame?

Acabo de tener una conversación con compañeros de trabajo sobre esto, y pensamos que valdría la pena ver lo que la gente de SO tenía que decir. Supongamos que tengo una lista con N elementos, donde cada elemento es un vector de longitud X. Supongamos ahora que quería transformar eso en un data.frame. Al igual […]

Adjunte una columna al Marco de Datos en Apache Spark 1.3

¿Es posible y cuál sería el método más eficiente para agregar una columna al Marco de Datos? Más específicamente, la columna puede servir como Id. De fila para el Marco de datos existente. En un caso simplificado, leyendo de archivo y no tokenizing, puedo pensar en algo como a continuación (en Scala), pero se completa […]

Cómo comprimir dos (o más) DataFrame en Spark

Tengo dos DataFrame a y b . a es como Column 1 | Column 2 abc | 123 cde | 23 b es como Column 1 1 2 Quiero comprimir a b (o incluso más) DataFrames, que se convierte en algo así como: Column 1 | Column 2 | Column 3 abc | 123 | […]

Eliminar grupos que tienen valores diferentes

Tengo un dataframe como a continuación sample <- data.frame(ID=1:9, Group=c('AA','AA','AA','BB','BB','CC','CC','BB','CC'), Value = c(1,1,1,2,2,2,3,2,3)) Se supone que cada grupo tiene el mismo valor. ID Group Value 1 AA 1 2 AA 1 3 AA 1 4 BB 2 5 BB 2 6 CC 2 7 CC 3 8 BB 2 9 CC 3 Si miras al […]

Amplíe los rangos definidos por las columnas “desde” y “hasta”

Tengo un dataframe que contiene el “name” de los presidentes de EE. UU., Los años en que comienzan y terminan en la oficina (columnas “from” y “to” ). Aquí hay una muestra: name from to Bill Clinton 1993 2001 George W. Bush 2001 2009 Barack Obama 2009 2012 … y el resultado de dput : […]