Preguntas etiquetadas con pandas

Pandas es una biblioteca de Python para la manipulación y el análisis de datos, por ejemplo, marcos de datos, series de tiempo multidimensionales y conjuntos de datos transversales que se encuentran comúnmente en estadísticas, resultados de ciencias experimentales, econometría o finanzas. Pandas es una de las principales bibliotecas de ciencia de datos en Python.

9
Reemplazar valores no válidos con Ninguno en Pandas DataFrame
¿Hay algún método para reemplazar valores Noneen Pandas en Python? Puede usar df.replace('pre', 'post')y puede reemplazar un valor con otro, pero esto no se puede hacer si desea reemplazarlo con un Nonevalor, que si lo intenta, obtendrá un resultado extraño. Así que aquí tienes un ejemplo: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', …

6
Función agregada Pandas DataFrame usando múltiples columnas
¿Hay alguna forma de escribir una función de agregación como se usa en el DataFrame.aggmétodo, que tendría acceso a más de una columna de los datos que se están agregando? Los casos de uso típicos serían funciones de desviación estándar ponderada, promedio ponderado. Me gustaría poder escribir algo como def …
80 python  pandas 

6
Pelar / recortar todas las cadenas de un marco de datos
Limpiando los valores de un marco de datos de varios tipos en python / pandas, quiero recortar las cadenas. Actualmente lo estoy haciendo en dos instrucciones: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end …

8
Error de memoria al usar pandas read_csv
Estoy tratando de hacer algo bastante simple, leer un archivo csv grande en un marco de datos de pandas. data = pandas.read_csv(filepath, header = 0, sep = DELIMITER,skiprows = 2) El código falla con a MemoryError, o simplemente nunca termina. El uso de memoria en el administrador de tareas se …
79 python  windows  pandas 

3
Error extraño en Pandas y Numpy con respecto al multihilo
La mayoría de las funciones de Numpy permitirán el subprocesamiento múltiple de forma predeterminada. por ejemplo, trabajo en una estación de trabajo Intel CPU de 8 núcleos, si ejecuto un script import numpy as np x=np.random.random(1000000) for i in range(100000): np.sqrt(x) Linux topmostrará un uso de CPU del 800% durante …
25 python  pandas  numpy 


7
Compruebe si la columna pandas contiene todos los elementos de una lista
Tengo un df como este: frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']}) Y una lista de artículos: letters = ['a','c'] Mi objetivo es obtener todas las filas frameque contienen al menos los 2 elementos enletters Se me ocurrió esta solución: for i in letters: subframe = frame[frame['a'].str.contains(i)] Esto me da …
20 python  pandas 

5
¿Desapilar y devolver valor cuenta para cada variable?
Tengo un marco de datos que registra las respuestas de la elección de lenguajes de programación de 19717 personas a través de preguntas de opción múltiple. La primera columna es, por supuesto, el género del encuestado, mientras que el resto son las opciones que eligieron. Y, por lo tanto, si …


3
Cómo convertir pandas dataframe a diccionario jerárquico
Tengo el siguiente marco de datos de pandas: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Estoy tratando de crear un diccionario jerárquico, con los valores del diccionario incrustado como listas, que se ve así: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], 2:[450, 400]}} ¿Cómo haría esto? Lo más cerca que …
16 python  pandas 



6
Encuentra pares simétricos rápidamente en numpy
from itertools import product import pandas as pd df = pd.DataFrame.from_records(product(range(10), range(10))) df = df.sample(90) df.columns = "c1 c2".split() df = df.sort_values(df.columns.tolist()).reset_index(drop=True) # c1 c2 # 0 0 0 # 1 0 1 # 2 0 2 # 3 0 3 # 4 0 4 # .. .. .. # …
15 python  pandas  numpy 

3
Obtenga la distancia más cercana con dos geodataframes en pandas
Aquí está mi primer geodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Ciudad1 …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.