Preguntas etiquetadas con dataframe

Un marco de datos es una estructura de datos tabular. Por lo general, contiene datos donde las filas son observaciones y las columnas son variables de varios tipos. Mientras "marco de datos" o "marco de datos" es el término utilizado para este concepto en varios idiomas (R, Apache Spark, deedle, Maple, la biblioteca de pandas en Python y la biblioteca de marcos de datos en Julia), "tabla" es el término utilizado en MATLAB y SQL.

6
pandas: ¿Cómo divido el texto de una columna en varias filas?
Estoy trabajando con un archivo csv grande y la penúltima columna tiene una cadena de texto que quiero dividir por un delimitador específico. Me preguntaba si hay una manera simple de hacer esto usando pandas o python. CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 …
135 python  pandas  dataframe 

8
pandas valores únicos columnas múltiples
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) ¿Cuál es la mejor manera de devolver los valores únicos de 'Col1' y 'Col2'? La salida deseada es 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

4
Pandas de Python: llenar un marco de datos fila por fila
La simple tarea de agregar una fila a un pandas.DataFrameobjeto parece ser difícil de lograr. Hay 3 preguntas de stackoverflow relacionadas con esto, ninguna de las cuales da una respuesta funcional. Esto es lo que estoy tratando de hacer. Tengo un DataFrame del que ya conozco la forma, así como …
133 python  dataframe  row  pandas 


13
¿Cómo mostrar el nombre de todas las columnas en el marco de datos de pandas?
Tengo un marco de datos que consta de cientos de columnas y necesito ver todos los nombres de las columnas. Lo que hice: In[37]: data_all2.columns La salida es: Out[37]: Index(['customer_id', 'incoming', 'outgoing', 'awan', 'bank', 'family', 'food', 'government', 'internet', 'isipulsa', ... 'overdue_3months_feature78', 'overdue_3months_feature79', 'overdue_3months_feature80', 'overdue_3months_feature81', 'overdue_3months_feature82', 'overdue_3months_feature83', 'overdue_3months_feature84', 'overdue_3months_feature85', 'overdue_3months_feature86', 'loan_overdue_3months_total_y'], …
131 python  pandas  dataframe  show 


8
Omitir filas que contienen una columna específica de NA
Quiero saber cómo omitir NAvalores en un marco de datos, pero solo en algunas columnas que me interesan. Por ejemplo, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) pero solo quiero omitir los datos donde yestá NA, por lo tanto, el resultado debería …
129 r  dataframe  na 


5
R: ¿Concatenar dos marcos de datos?
Dados dos marcos de datos ay b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 …

10
¿Cómo se puede agregar una fila a un marco de datos en R?
En R, ¿cómo agrega una nueva fila a un marco de datos una vez que el marco de datos ya se ha inicializado? Hasta ahora tengo esto: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", …
129 r  dataframe 



9
¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) También recibí un error al usar esto: my_df_spark.withColumn("hours", …


5
Agregar fechas faltantes al marco de datos de pandas
Mis datos pueden tener múltiples eventos en una fecha determinada o NO eventos en una fecha. Tomo estos eventos, obtengo un recuento por fecha y los trazo. Sin embargo, cuando los trazo, mis dos series no siempre coinciden. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() En el código anterior, idx …
127 python  date  plot  pandas  dataframe 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.