Realmente depende de lo que está tratando de lograr y de lo que quiere decir con "Cluster de Computación Distribuida". Hice algo similar una vez en Uni usando máquinas viejas y PVM que es el "Clúster" en el sentido de un montón de máquinas que actúan como una sola computadora para hacer un procesamiento paralelo: piense en los clústeres de Beowulf. Por supuesto, necesitará un código escrito para aprovechar esto.
Un buen lugar para comenzar sería determinar lo que está buscando aprender con este proyecto. Recomiendo leer el artículo de Wikipedia sobre computación paralela para empezar, y luego refinar sus necesidades en función de lo que desea hacer.
Un simple sistema de colas de trabajo (como Gearman ) puede ser suficiente para obtener rápidamente resultados geniales.
El problema que tuve cuando hice un clúster de computación en paralelo, fue que no tenía nada que hacer en él, simplemente se quedó allí, pero fue un proyecto divertido y aprendí bastante. En cualquier caso, es probable que aprenda un poco y se divierta al mismo tiempo, independientemente de lo que elija implementar.
En cuanto a la elección de distribuciones, iría con lo que me resultaba más cómodo, ya que es probable que necesite instalar cosas desde la fuente. Una vez que se sienta cómodo con la configuración de todo, puede buscar una distribución que se adapte más a sus necesidades. Pero cualquier distribución debe hacer.
¿Qué software configurar el clúster? Esto depende completamente de qué tipo de clúster cree.
¿A bordo versus FS distribuido? Nuevamente, esto depende de cuáles son los requisitos para su clúster. ¿Cada nodo pasará datos de un lado a otro entre los otros nodos? ¿Operarán como esclavos con un solo amo? ¿operarán de manera completamente independiente? Estas preguntas comenzarán a informar sus elecciones. Y, por supuesto, siempre hay compensaciones.
Algunos otros enlaces que pueden resultar interesantes:
http://hadoop.apache.org/
http://www.csm.ornl.gov/oscar/
https://computing.llnl.gov/tutorials/parallel_comp/
http://www.google.com/Top/Computers/Parallel_Computing/Programming/Environments/
http://www.google.com/Top/Computers/Parallel_Computing/Beowulf/