Google tiene varias tecnologías que desarrollaron internamente para almacenar estas enormes masas de datos. Al usar estas tecnologías, en realidad pueden agregar cargas de camiones de discos duros en su clúster sin ningún tiempo de inactividad, pero sí, todavía necesitan personas que lo hagan.
Hasta donde sé por el Blog de Google, las dos partes principales son el Sistema de archivos de Google, que es un sistema de archivos distribuido que puede escalar a gran escala: el Sistema de archivos de Google
Y en la parte superior del Sistema de archivos de Google tienen Big Table, que es una especie de base de datos de valor clave y también se escala a grandes escalas: Big Table
Para garantizar una alta disponibilidad, todo es redundante muchas veces, más de 3 veces en la mayoría de los casos.