Programación dataframe

5

Python Pandas ¿Cómo asignar los resultados de la operación groupby a las columnas en el marco de datos principal?

Tengo el siguiente marco de datos en IPython, donde cada fila es una sola acción: In [261]: bdata Out[261]: <class 'pandas.core.frame.DataFrame'> Int64Index: 21210 entries, 0 to 21209 Data columns: BloombergTicker 21206 non-null values Company 21210 non-null values Country 21210 non-null values MarketCap 21210 non-null values PriceReturn 21210 non-null values SEDOL …

81 python group-by dataframe pandas

1

Convertir un marco de datos en una tabla de datos sin copiar

Tengo un marco de datos grande (del orden de varios GB) que me gustaría convertir a data.table. El uso as.data.tablecrea una copia del marco de datos, lo que significa que necesito que la memoria disponible sea al menos el doble del tamaño de los datos. ¿Hay alguna forma de realizar …

81 r dataframe reference data.table

13

Manera elegante de informar valores faltantes en un marco de datos

Aquí hay un pequeño fragmento de código que escribí para reportar variables con valores perdidos de un marco de datos. Estoy tratando de pensar en una forma más elegante de hacer esto, una que quizás devuelva un data.frame, pero estoy atascado: for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if …

80 r dataframe missing-data

9

Reemplazar valores no válidos con Ninguno en Pandas DataFrame

¿Hay algún método para reemplazar valores Noneen Pandas en Python? Puede usar df.replace('pre', 'post')y puede reemplazar un valor con otro, pero esto no se puede hacer si desea reemplazarlo con un Nonevalor, que si lo intenta, obtendrá un resultado extraño. Así que aquí tienes un ejemplo: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', …

80 python pandas dataframe replace nan

6

Pelar / recortar todas las cadenas de un marco de datos

Limpiando los valores de un marco de datos de varios tipos en python / pandas, quiero recortar las cadenas. Actualmente lo estoy haciendo en dos instrucciones: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end …

80 python regex pandas dataframe trim

10

Cómo imprimir (en papel) un marco de datos con un formato agradable

Me gustaría imprimir en papel marcos de datos con un formato agradable, idealmente desde un script. (Estoy tratando de recopilar datos usando un instrumento y procesarlos e imprimirlos automáticamente usando un script R). Ahora mismo puedo escribir un marco de datos en un archivo de texto usando write.table(), pero esto …

80 r dataframe formatting

3

Crea un data.frame donde una columna es una lista

Sé cómo agregar una columna de lista: > df <- data.frame(a=1:3) > df$b <- list(1:1, 1:2, 1:3) > df a b 1 1 1 2 2 1, 2 3 3 1, 2, 3 Esto funciona, pero no: > df <- data.frame(a=1:3, b=list(1:1, 1:2, 1:3)) Error in data.frame(1L, 1:2, 1:3, check.names …

80 r list dataframe

1

Columnas no definidas seleccionadas al crear subconjuntos del marco de datos

Tengo un marco de datos, str(data)para mostrar más sobre mi marco de datos, el resultado es el siguiente: > str(data) 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... $ Solar.R: int 190 118 149 313 NA NA …

80 r dataframe subset

7

Agregue una nueva columna al marco de datos según el diccionario

Tengo un marco de datos y un diccionario. Necesito agregar una nueva columna al marco de datos y calcular sus valores en función del diccionario. Aprendizaje automático, agregando nuevas características basadas en alguna tabla: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df = …

23 python pandas dataframe dictionary

5

¿Desapilar y devolver valor cuenta para cada variable?

Tengo un marco de datos que registra las respuestas de la elección de lenguajes de programación de 19717 personas a través de preguntas de opción múltiple. La primera columna es, por supuesto, el género del encuestado, mientras que el resto son las opciones que eligieron. Y, por lo tanto, si …

19 python pandas dataframe

4

Comparar listas en dos columnas de forma eficiente en filas

Al tener un Pandas DataFrame como este: import pandas as pd import numpy as np df = pd.DataFrame({'today': [['a', 'b', 'c'], ['a', 'b'], ['b']], 'yesterday': [['a', 'b'], ['a'], ['a']]}) today yesterday 0 ['a', 'b', 'c'] ['a', 'b'] 1 ['a', 'b'] ['a'] 2 ['b'] ['a'] ... etc Pero con alrededor de …

16 python pandas numpy dataframe

3

Obtenga la distancia más cercana con dos geodataframes en pandas

Aquí está mi primer geodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Ciudad1 …

14 python pandas dataframe geolocation geopandas

4

Calcular el porcentaje de valores similares en el marco de datos de pandas

Tengo un marco de datos df, con dos columnas: Script (con texto) y Speaker Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 Y tengo la siguiente lista: L = ['a','b','c'] Con el siguiente código, df …

14 python python-3.x pandas dataframe

3

¿Por qué la asignación con [:] versus iloc [:] produce resultados diferentes en pandas?

Estoy muy confundido con los diferentes métodos de indexación que se usan ilocen los pandas. Digamos que estoy tratando de convertir un Dataframe 1-d en un Dataframe 2-d. Primero tengo el siguiente marco de datos 1-d a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Y voy a convertir eso en un Dataframe …

13 python pandas dataframe

3

Pandas lentos DataFrame MultiIndex reindex

Tengo un DataFrame de pandas del formulario: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

13 python pandas numpy dataframe

Preguntas etiquetadas con dataframe