Pandas groupby: Cómo conseguir una unión de cuerdas


122

Tengo un marco de datos como este:

   A         B       C
0  1  0.749065    This
1  2  0.301084      is
2  3  0.463468       a
3  4  0.643961  random
4  1  0.866521  string
5  2  0.120737       !

Vocación

In [10]: print df.groupby("A")["B"].sum()

volverá

A
1    1.615586
2    0.421821
3    0.463468
4    0.643961

Ahora me gustaría hacer "lo mismo" para la columna "C". Debido a que esa columna contiene cadenas, sum () no funciona (aunque podría pensar que concatenaría las cadenas). Lo que realmente me gustaría ver es una lista o un conjunto de cadenas para cada grupo, es decir

A
1    {This, string}
2    {is, !}
3    {a}
4    {random}

He estado tratando de encontrar formas de hacer esto.

Series.unique () ( http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.unique.html ) no funciona, aunque

df.groupby("A")["B"]

es un

pandas.core.groupby.SeriesGroupBy object

así que esperaba que cualquier método de Series funcionara. ¿Algunas ideas?

Respuestas:


178
In [4]: df = read_csv(StringIO(data),sep='\s+')

In [5]: df
Out[5]: 
   A         B       C
0  1  0.749065    This
1  2  0.301084      is
2  3  0.463468       a
3  4  0.643961  random
4  1  0.866521  string
5  2  0.120737       !

In [6]: df.dtypes
Out[6]: 
A      int64
B    float64
C     object
dtype: object

Cuando aplica su propia función, no hay exclusiones automáticas de columnas no numéricas. Esto es más lento, sin embargo, que la aplicación de .sum()lagroupby

In [8]: df.groupby('A').apply(lambda x: x.sum())
Out[8]: 
   A         B           C
A                         
1  2  1.615586  Thisstring
2  4  0.421821         is!
3  3  0.463468           a
4  4  0.643961      random

sum por defecto concatena

In [9]: df.groupby('A')['C'].apply(lambda x: x.sum())
Out[9]: 
A
1    Thisstring
2           is!
3             a
4        random
dtype: object

Puedes hacer prácticamente lo que quieras

In [11]: df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join(x))
Out[11]: 
A
1    {This, string}
2           {is, !}
3               {a}
4          {random}
dtype: object

Haciendo esto en un cuadro completo, un grupo a la vez. La clave es devolver unSeries

def f(x):
     return Series(dict(A = x['A'].sum(), 
                        B = x['B'].sum(), 
                        C = "{%s}" % ', '.join(x['C'])))

In [14]: df.groupby('A').apply(f)
Out[14]: 
   A         B               C
A                             
1  2  1.615586  {This, string}
2  4  0.421821         {is, !}
3  3  0.463468             {a}
4  4  0.643961        {random}

Parece que estas operaciones ahora están vectorizadas eliminando la necesidad de applyy lambdas. Vine aquí preguntándome por qué en pandasrealidad concats y no devuelve un error al sumar cadenas.
NelsonGon

1
Si está intentando concatizar cadenas y agregar un carácter en el medio, la solución .agg recomendada por @voithos a continuación es mucho más rápida que la .apply recomendada aquí. En mis pruebas, me estaba volviendo 5-10 veces más rápido.
Doubledown

70

Puede utilizar el applymétodo para aplicar una función arbitraria a los datos agrupados. Entonces, si quieres un juego, aplica set. Si quieres una lista, aplica list.

>>> d
   A       B
0  1    This
1  2      is
2  3       a
3  4  random
4  1  string
5  2       !
>>> d.groupby('A')['B'].apply(list)
A
1    [This, string]
2           [is, !]
3               [a]
4          [random]
dtype: object

Si quieres algo más, escribe una función que haga lo que quieras y luego applyeso.


Funciona bien, pero falta la columna A.
Vineesh TP

@VineeshTP: La columna A se usó como columna de agrupación, por lo que está en el índice, como puede ver en el ejemplo. Puede recuperarlo como una columna usando .reset_index().
BrenBarn

30

Es posible que pueda utilizar la función aggregate(o agg) para concatenar los valores. (Código no probado)

df.groupby('A')['B'].agg(lambda col: ''.join(col))

Realmente funciona. Asombroso. Como @voithos mencionó "no probado", no fui muy optimista. Bit probé su versión como una entrada en un diccionario agg y funcionó como se esperaba: .agg ({'tp': 'sum', 'BaseWgt': 'max', 'TP_short': lambda col: ',' .join (col)}) hizo mi día
matthhias

2
Si está intentando concatenar cadenas junto con algún tipo de separador, he encontrado que esta sugerencia de .agg es mucho más rápida que .apply. Para un conjunto de datos de más de 600k cadenas de texto, obtuve resultados idénticos entre 5 y 10 veces más rápido.
Doubledown

14

Puedes probar esto:

df.groupby('A').agg({'B':'sum','C':'-'.join})

2
De la revisión: ¿podría agregar más explicación a su respuesta?
toti08

1
Groupby se aplica en la columna 'A' y con la función agg podría usar diferentes funciones en diferentes columnas, decir sumar los elementos en la columna 'C', concatenar los elementos en la columna 'C' mientras se inserta un '-' entre las palabras
user3241146

8

una solución simple sería:

>>> df.groupby(['A','B']).c.unique().reset_index()

esta debería ser la respuesta correcta. te da una respuesta limpia. ¡muchas gracias!
imsrgadich

Si, en caso de que alguien esté interesado en unir el contenido de la lista en una cadena df.groupby(['A','B']).c.unique().apply(lambda x: ';'.join(x)).reset_index()
Vivek-Ananth

8

Agregaciones con nombre con pandas >= 0.25.0

Desde la versión 0.25.0 de pandas, hemos nombrado agregaciones en las que podemos agrupar, agregar y al mismo tiempo asignar nuevos nombres a nuestras columnas. De esta forma no obtendremos las columnas MultiIndex, y los nombres de las columnas tienen más sentido dados los datos que contienen:


agregar y obtener una lista de cadenas

grp = df.groupby('A').agg(B_sum=('B','sum'),
                          C=('C', list)).reset_index()

print(grp)
   A     B_sum               C
0  1  1.615586  [This, string]
1  2  0.421821         [is, !]
2  3  0.463468             [a]
3  4  0.643961        [random]

agregar y unir las cuerdas

grp = df.groupby('A').agg(B_sum=('B','sum'),
                          C=('C', ', '.join)).reset_index()

print(grp)
   A     B_sum             C
0  1  1.615586  This, string
1  2  0.421821         is, !
2  3  0.463468             a
3  4  0.643961        random

6

Si desea sobrescribir la columna B en el marco de datos, esto debería funcionar:

    df = df.groupby('A',as_index=False).agg(lambda x:'\n'.join(x))

2

Siguiendo la buena respuesta de @ Erfan, la mayoría de las veces, en un análisis de valores agregados, desea las combinaciones posibles únicas de estos valores de caracteres existentes:

unique_chars = lambda x: ', '.join(x.unique())
(df
 .groupby(['A'])
 .agg({'C': unique_chars}))
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.