De acuerdo con la Hadoop - The Definitive Guide
Los registros lógicos que define FileInputFormats no suelen encajar perfectamente en los bloques HDFS. Por ejemplo, los registros lógicos de TextInputFormat son líneas, que cruzarán los límites de HDFS la mayoría de las veces. Esto no influye en el funcionamiento de su programa (las líneas no se pierden ni se rompen, por ejemplo) pero vale la pena conocerlo, ya que significa que los mapas locales de datos (es decir, mapas que se ejecutan en el mismo host que su datos de entrada) realizará algunas lecturas remotas. La ligera sobrecarga que esto causa normalmente no es significativa.
Suponga que una línea de registro se divide en dos bloques (b1 y b2). El asignador que procesa el primer bloque (b1) notará que la última línea no tiene un separador de EOL y recuperará el resto de la línea del siguiente bloque de datos (b2).
¿Cómo determina el mapeador que procesa el segundo bloque (b2) que el primer registro está incompleto y debe procesar a partir del segundo registro del bloque (b2)?
LineReader.readLine
función, no creo que sea relevante para su pregunta, pero puedo agregar más detalles si es necesario.