Programación dataframe

6

pandas: ¿Cómo divido el texto de una columna en varias filas?

Estoy trabajando con un archivo csv grande y la penúltima columna tiene una cadena de texto que quiero dividir por un delimitador específico. Me preguntaba si hay una manera simple de hacer esto usando pandas o python. CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 …

135 python pandas dataframe

8

pandas valores únicos columnas múltiples

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) ¿Cuál es la mejor manera de devolver los valores únicos de 'Col1' y 'Col2'? La salida deseada es 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

134 python pandas dataframe unique

4

Pandas de Python: llenar un marco de datos fila por fila

La simple tarea de agregar una fila a un pandas.DataFrameobjeto parece ser difícil de lograr. Hay 3 preguntas de stackoverflow relacionadas con esto, ninguna de las cuales da una respuesta funcional. Esto es lo que estoy tratando de hacer. Tengo un DataFrame del que ya conozco la forma, así como …

133 python dataframe row pandas

5

Pandas DataFrame: reemplaza todos los valores en una columna, según la condición

Tengo un DataFrame simple como el siguiente: Quiero seleccionar todos los valores de la columna 'Primera temporada' y reemplazar los que están por encima de 1990 por 1. En este ejemplo, solo Baltimore Ravens tendría el 1996 reemplazado por 1 (manteniendo el resto de los datos intactos). He usado lo …

132 python pandas dataframe

13

¿Cómo mostrar el nombre de todas las columnas en el marco de datos de pandas?

Tengo un marco de datos que consta de cientos de columnas y necesito ver todos los nombres de las columnas. Lo que hice: In[37]: data_all2.columns La salida es: Out[37]: Index(['customer_id', 'incoming', 'outgoing', 'awan', 'bank', 'family', 'food', 'government', 'internet', 'isipulsa', ... 'overdue_3months_feature78', 'overdue_3months_feature79', 'overdue_3months_feature80', 'overdue_3months_feature81', 'overdue_3months_feature82', 'overdue_3months_feature83', 'overdue_3months_feature84', 'overdue_3months_feature85', 'overdue_3months_feature86', 'loan_overdue_3months_total_y'], …

131 python pandas dataframe show

2

Asigne múltiples columnas usando: = en data.table, por grupo

¿Cuál es la mejor manera de asignar a múltiples columnas usando data.table? Por ejemplo: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Me gustaría hacer algo como esto (por supuesto, esta sintaxis es incorrecta): x[ , (col1, col2) := f(), by = "id"] Y para extender eso, puedo …

130 r dataframe data.table variable-assignment colon-equals

8

Omitir filas que contienen una columna específica de NA

Quiero saber cómo omitir NAvalores en un marco de datos, pero solo en algunas columnas que me interesan. Por ejemplo, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) pero solo quiero omitir los datos donde yestá NA, por lo tanto, el resultado debería …

129 r dataframe na

9

Eliminar partes no deseadas de cadenas en una columna

Estoy buscando una manera eficiente de eliminar partes no deseadas de las cadenas en una columna DataFrame. Los datos se ven así: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Necesito recortar estos datos para: time result 1 09:00 52 2 …

129 python string pandas dataframe

5

R: ¿Concatenar dos marcos de datos?

Dados dos marcos de datos ay b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 …

129 r dataframe concatenation

10

¿Cómo se puede agregar una fila a un marco de datos en R?

En R, ¿cómo agrega una nueva fila a un marco de datos una vez que el marco de datos ya se ha inicializado? Hasta ahora tengo esto: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", …

129 r dataframe

4

Concatenar una lista de marcos de datos de pandas juntos

Tengo una lista de marcos de datos de Pandas que me gustaría combinar en un marco de datos de Pandas. Estoy usando Python 2.7.10 y Pandas 0.16.2 Creé la lista de marcos de datos de: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk …

129 python pandas dataframe concat

5

¿Cómo definir la partición de DataFrame?

Empecé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos con las que estoy trabajando contiene una lista de transacciones, por cuenta, silimar para el siguiente ejemplo. Account Date Type …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) También recibí un error al usar esto: my_df_spark.withColumn("hours", …

128 python apache-spark dataframe pyspark apache-spark-sql

3

Varias agregaciones de la misma columna usando pandas GroupBy.agg ()

¿Existe una forma integrada de pandas para aplicar dos funciones de agregación diferentes f1, f2a la misma columna df["returns"], sin tener que llamar agg()varias veces? Marco de datos de ejemplo: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in …

128 python pandas dataframe aggregate pandas-groupby

5

Agregar fechas faltantes al marco de datos de pandas

Mis datos pueden tener múltiples eventos en una fecha determinada o NO eventos en una fecha. Tomo estos eventos, obtengo un recuento por fecha y los trazo. Sin embargo, cuando los trazo, mis dos series no siempre coinciden. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() En el código anterior, idx …

127 python date plot pandas dataframe

Preguntas etiquetadas con dataframe