Programación dataframe

10

División de diccionario / lista dentro de una columna Pandas en columnas separadas

Tengo datos guardados en una base de datos postgreSQL. Estoy consultando estos datos usando Python2.7 y convirtiéndolos en un Pandas DataFrame. Sin embargo, la última columna de este marco de datos tiene un diccionario (¿o una lista?) De valores dentro de él. El DataFrame se ve así: [1] df Station …

146 python pandas dictionary dataframe

7

Marco de datos de pandas fillna () solo algunas columnas en su lugar

Estoy tratando de completar ninguno de los valores en un marco de datos de Pandas con 0 para solo un subconjunto de columnas. Cuando lo hago: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df La salida: a b c 0 1.0 4.0 NaN 1 2.0 …

145 python pandas dataframe

2

Seleccionar filas en pandas MultiIndex DataFrame

¿Cuáles son las formas más comunes de los pandas para seleccionar / filtrar filas de un marco de datos cuyo índice es un MultiIndex ? Rebanadas basadas en un solo valor / etiqueta Rebanadas basadas en múltiples etiquetas de uno o más niveles Filtrado en condiciones booleanas y expresiones Qué …

145 python pandas dataframe slice multi-index

7

Cómo encontrar qué columnas contienen cualquier valor de NaN en el marco de datos de Pandas

Dado un marco de datos de pandas que contiene posibles valores de NaN dispersos aquí y allá: Pregunta: ¿Cómo determino qué columnas contienen valores de NaN? En particular, ¿puedo obtener una lista de los nombres de columna que contienen NaN?

144 python pandas dataframe nan

8

¿Cómo seleccionar la primera fila de cada grupo?

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

143 sql scala apache-spark dataframe apache-spark-sql

6

¿Cómo obtener la primera columna de un pandas DataFrame como una serie?

Lo intenté: x=pandas.DataFrame(...) s = x.take([0], axis=1) Y sobtiene un DataFrame, no una Serie.

142 python dataframe pandas series

14

Determinar el número de valores de NA en una columna

Quiero contar el número de NAvalores en una columna de marco de datos. Digamos que mi marco de datos se llama df, y el nombre de la columna que estoy considerando es col. La forma en que se me ocurrió es la siguiente: sapply(df$col, function(x) sum(length(which(is.na(x))))) ¿Es esta una forma …

142 r dataframe

8

Cambiar el nombre del índice de marco de datos de pandas

Tengo un archivo csv sin encabezado, con un índice DateTime. Quiero cambiar el nombre del índice y el nombre de la columna, pero con df.rename () solo se cambia el nombre de la columna. ¿Insecto? Estoy en la versión 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In …

142 python pandas dataframe

9

¿Cómo reemplazar NaNs por valores anteriores en el marco de datos de pandas?

Supongamos que tengo un DataFrame con algunos NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Lo que necesito hacer es reemplazar cada uno …

140 python python-3.x pandas dataframe nan

3

¿Cómo guardar un data.frame en R?

Hice un data.frame en R que no es muy grande, pero lleva bastante tiempo construirlo. Me gustaría guardarlo como un archivo, que puedo abrir de nuevo en R?

137 r dataframe

2

¿Cómo agregar una columna constante en un Spark DataFrame?

Quiero agregar una columna en un DataFramevalor arbitrario (que es lo mismo para cada fila). Me sale un error cuando uso de la withColumnsiguiente manera: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Buscar columna cuyo nombre contiene una cadena específica

Tengo un marco de datos con nombres de columna, y quiero encontrar el que contiene una cadena determinada, pero que no coincide exactamente. Estoy buscando 'spike'en los nombres de columna como 'spike-2', 'hey spike', 'spiked-in'(la 'spike'parte es siempre continua). Quiero que el nombre de la columna se devuelva como una …

137 python python-3.x string pandas dataframe

5

El marco de datos de pandas obtiene la primera fila de cada grupo

Tengo unos pandas DataFramecomo los siguientes. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Quiero agrupar esto por ["id", "valor"] y obtener la primera fila de cada grupo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …

137 python pandas dataframe

6

columnas de marco de datos de pandas escalando con sklearn

Tengo un marco de datos de pandas con columnas de tipo mixto, y me gustaría aplicar min_max_scaler de sklearn a algunas de las columnas. Idealmente, me gustaría hacer estas transformaciones en su lugar, pero aún no he encontrado una manera de hacerlo. He escrito el siguiente código que funciona: import …

137 python pandas scikit-learn dataframe

4

¿Cuál es la forma más eficiente de crear un diccionario de dos columnas de marco de datos de pandas?

¿Cuál es la forma más eficiente de organizar el siguiente marco de datos de pandas? datos = Position Letter 1 a 2 b 3 c 4 d 5 e en un diccionario como alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

136 python dictionary pandas dataframe

Preguntas etiquetadas con dataframe