¿Qué recuerdan más los usuarios, la posición o el color de los elementos?
No propondré sugerencias concretas, sino un breve comentario en el titular: es muy individual. Al igual que algunas personas dirán "Entiendo lo que quieres decir" y otras dirán "Te escucho" o algo similar. Algunas personas están sintonizadas con imágenes, algunas personas están más sintonizadas con el sonido.
Algunas personas están más en sintonía con la forma, otras con los colores. Del mismo modo que necesita satisfacer el daltónico, debe tener en cuenta que no todas las personas ven la forma y el color como sus pistas principales para la navegación (algunas personas identificarán un árbol, un animal, una casa por forma o color; algunos lo verán). Identifique un automóvil conduciendo por el sonido en lugar de la forma y / o el color, etc.
En este caso, por supuesto, es un equilibrio entre los dos (sería divertido saber qué tipo de usuarios se equivocan al presionar el botón equivocado. Puede haber un patrón allí. Además, creo que los usuarios con excelentes habilidades informáticas serán más rápidos en suponiendo dónde encontrar el botón correcto).
Como no puede mostrarnos los botones reales con los íconos, es difícil sugerir. Una manera simple podría ser simplemente hacer que la distancia sea mayor a la que está "fuera", como sugiere @ DA01. Algo así como MailApp:
Solo un pensamiento.
Editar
Un experimento que es divertido es presentar a un puñado de personas una maqueta primitiva (cuanto más simple, mejor: dibujos, post-it en la pared, bocetos, pizarra, etc.) con botones colocados pero no marcados e identificados. Luego pregunte a las personas qué esperan que hagan los botones anónimos. A veces, esto puede traer resultados informativos y muy interesantes.