Preguntas etiquetadas con pandas

Pandas es una biblioteca de Python para la manipulación y el análisis de datos, por ejemplo, marcos de datos, series de tiempo multidimensionales y conjuntos de datos transversales que se encuentran comúnmente en estadísticas, resultados de ciencias experimentales, econometría o finanzas. Pandas es una de las principales bibliotecas de ciencia de datos en Python.

2
Inferir qué columnas son datetime
Tengo un gran marco de datos con muchas columnas, muchas de las cuales son de tipo datetime.datetime. El problema es que muchos también tienen tipos mixtos, que incluyen, por ejemplo, datetime.datetimevalores y Nonevalores (y potencialmente otros valores no válidos): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 …
14 python  pandas 


1
La función to_excel de pandas genera un error de tipo inesperado
Creé un diccionario de marco de datos de pandas: d[k] = pd.DataFrame(data=data[i]) Así que supongo que d[k]es un marco de datos de pandas correcto. Entonces for k in d.keys(): d[k].to_excel (file_name) Entonces tengo el error: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Estoy usando …

3
Pandas lentos DataFrame MultiIndex reindex
Tengo un DataFrame de pandas del formulario: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

2
Generar productos cartesianos binarios filtrados.
Planteamiento del problema Estoy buscando una forma eficiente de generar productos cartesianos binarios completos (tablas con todas las combinaciones de Verdadero y Falso con un cierto número de columnas), filtradas por ciertas condiciones exclusivas. Por ejemplo, para tres columnas / bits n=3obtendríamos la tabla completa df_combs = pd.DataFrame(itertools.product(*([[True, False]] * …

1
pandasUDF y pyarrow 0.15.0
Recientemente comencé a recibir un montón de errores en varios pysparktrabajos que se ejecutan en clústeres EMR. Los erros son java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Todos …


9
crear una matriz NxN de pandas de una columna
Tengo un marco de datos con cada fila que tiene un valor de lista. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] Tengo que calcular una puntuación con una fila y contra todas las otras filas Por ejemplo: Step 1: Take value of id 0: ['a','b','c'], Step 2: …
11 python  pandas  numpy 







2
Pandas: segmentación en zigzag de datos basada en mínimos máximos locales
Tengo datos de una serie temporal. Generando datos date_rng = pd.date_range('2019-01-01', freq='s', periods=400) df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)), columns=['data1', 'data2', 'data3'], index= date_rng) s = df['data1'] Quiero crear una línea en zig-zag que conecte entre los máximos locales y los mínimos locales, que satisfaga la condición de que en el …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.