Preguntas etiquetadas con dataframe

Un marco de datos es una estructura de datos tabular. Por lo general, contiene datos donde las filas son observaciones y las columnas son variables de varios tipos. Mientras "marco de datos" o "marco de datos" es el término utilizado para este concepto en varios idiomas (R, Apache Spark, deedle, Maple, la biblioteca de pandas en Python y la biblioteca de marcos de datos en Julia), "tabla" es el término utilizado en MATLAB y SQL.





8
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …


14
Determinar el número de valores de NA en una columna
Quiero contar el número de NAvalores en una columna de marco de datos. Digamos que mi marco de datos se llama df, y el nombre de la columna que estoy considerando es col. La forma en que se me ocurrió es la siguiente: sapply(df$col, function(x) sum(length(which(is.na(x))))) ¿Es esta una forma …
142 r  dataframe 

8
Cambiar el nombre del índice de marco de datos de pandas
Tengo un archivo csv sin encabezado, con un índice DateTime. Quiero cambiar el nombre del índice y el nombre de la columna, pero con df.rename () solo se cambia el nombre de la columna. ¿Insecto? Estoy en la versión 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In …
142 python  pandas  dataframe 



2
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en un DataFramevalor arbitrario (que es lo mismo para cada fila). Me sale un error cuando uso de la withColumnsiguiente manera: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


5
El marco de datos de pandas obtiene la primera fila de cada grupo
Tengo unos pandas DataFramecomo los siguientes. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Quiero agrupar esto por ["id", "valor"] y obtener la primera fila de cada grupo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.