Crear un script con opciones para acceder a diferentes directorios y archivos


He estado luchando durante mucho tiempo para escribir un script que tenga 2 argumentos, 1 pidiendo seleccionar un año y 2 pidiendo seleccionar si quiero que se muestre mínimo, máximo, promedio o todo como la última línea de los archivos relacionados al año seleccionado.

Básicamente, tengo un directorio que contiene subdirectorios de diferentes años (2000, 2001, 2002, etc.) en esos directorios son subdirectorios para meses y días que contienen (a) archivos que informan sobre poblaciones (aunque no información real) de diferentes ciudades como la última línea. Esa es una parte del árbol del directorio:

|-- 2000
|   |-- 01
|   |   `-- 18
|   |       `-- ff_1177818640
|   |-- 02
|   |   |-- 02
|   |   |   `-- ff_1669027271
|   |   |-- 03
|   |   |   `-- ff_234075290
|   |   |-- 10
|   |   |   `-- ff_1584524530
|   |   |-- 14
|   |   |   `-- ff_113807345
|   |   `-- 17
|   |       `-- ff_1452228827
|   |-- 03
|   |   |-- 06
|   |   |   `-- ff_58914249
|   |   `-- 11
|   |       `-- ff_2828212321
|   |-- 04
|   |   `-- 17
|   |       `-- ff_302131884
|   |-- 06
|   |   `-- 13
|   |       `-- ff_2175615745
|   |-- 07
|   |   |-- 07
|   |   |   `-- ff_918426998
|   |   `-- 24
|   |       `-- ff_2808316425
|   |-- 08
|   |   `-- 27
|   |       `-- ff_1449825497
|   |-- 09
|   |   `-- 19
|   |       `-- ff_110255856
|   `-- 12
|       `-- 08
|           `-- ff_1621190
|-- 2001
|   |-- 03
|   |   `-- 21
|   |       `-- ff_517010375
|   |-- 05
|   |   `-- 27
|   |       `-- ff_1458621098
|   |-- 06
|   |   |-- 07
|   |   |   `-- ff_155853916
|   |   |-- 25
|   |   |   |-- ff_2382312387
|   |   |   `-- ff_270731174
|   |   `-- 29
|   |       `-- ff_3228522859
|   |-- 07
|   |   `-- 28
|   |       `-- ff_3215021752
|   |-- 09
|   |   `-- 24
|   |       `-- ff_1080314364
|   `-- 11
|       `-- 24
|           `-- ff_2313722442

Todos los archivos están formateados de la misma manera:


Necesito escribir un script para que me pregunten qué año necesito (seleccionando ese directorio) y luego preguntando si quiero que se muestre promedio, mínimo, máximo o todo lo anterior para la población (que es la última línea de los archivos).

Esto es lo que tengo hasta ahora:


function min () {
    echo $(sort -n populations | head -1)

function max () {
    echo $(sort -n populations | tail -1)

function avg () {
    while read line ; do
        num='echo ${line#* }'
        sum='expr $sum + $num'
        count='expr $count + 1'
    done < populations
    avg='expr $sum / $count'
    echo $avg

echo "Please enter the year: "
read s1
echo "
        Enter an option:
        1. Minimum
        2. Maximum
        3. Average
        4. All"
read s2
#echo $s2
for file in $(find ~/filesToSort/$s1 -type f) ; do
    tail -1 $file >> populations
echo $(cat populations)
rm populations

Esto me permite elegir directorios, pero no me da las respuestas que necesito, solo escupe las últimas líneas de mis archivos.

¿Entonces quieres hacer cálculos matemáticos a partir de números almacenados en el archivo 'poblaciones'?



Si implementara esto en bash, haría lo siguiente. No voy a comentar mucho sobre eso: siéntase libre de hacer preguntas específicas , consulte la página de manual de bash primero si no sabe cómo funciona un comando en particular.


# read the population from all the files
# map the filename to it's population figure
declare -A population
while IFS= read -d '' -r filename; do
    population["$filename"]=$(tail -1 "$filename")
done < <(find . -type f -print0)

# prompt the user for the year
read -rp "What year? " year

# find the relevant files for that year
for filename in "${!population[@]}"; do
    [[ $filename == ./"$year"/* ]] && year_files+=("$filename")
if [[ "${#year_files[@]}" -eq 0 ]]; then
    echo "No files for year '$year'"
    exit 1

PS3="Select a function to calculate: "
select func in minimum maximum average quit; do
    case $func in
            for file in "${year_files[@]}"; do
                if (( min > ${population[$file]} )); then
            echo "Minimum for $year is $min"
            for file in "${year_files[@]}"; do
                if (( max < ${population[$file]} )); then
            echo "Maximum for $year is $max"
            count=0 sum=0
            for file in "${year_files[@]}"; do
                (( sum += ${population[$file]} ))
                (( count++ ))
            echo "Average for $year is $(( sum / count ))"
        quit) exit ;;

Debería haber otra opción de selección como "Todos"


Escribo un awkscript simple que hace lo mismo que estás haciendo:

# read 'year' & 'option' from user
# or you can pass as argument to the command $1<-->$year & $2<-->$option

find /path/to/$year -type f -exec \
    awk -v select=$option '
        FNR==4 { sum+=$0; avg=sum/++count; 
                 if (count==1) min=$0;
        count>1 { min=(min<=$0?min:$0);
    END{ stats=min","max","avg","min"\n"max"\n"avg;
         split(stats, to_print,",");
         print to_print[select];
    }' {} +

Explicación en línea:

# read 'year' & 'option' from user
# or you can pass as argument to the command $1<-->$year & $2<-->$option

find /path/to/$year -type f -exec \
# find all files under "/path/to/$year". $year will be substitute with the value 
# of 'year' variable read from user-input or replace it with '$1' as first argument to the command

    awk -v select=$option '
    # read the value of shell 'option' variable into an awk 'select' variable 
    # replace with '$2' as argument to the command

        FNR==4 { sum+=$0; avg=sum/++count;
        # if it's 4th line of each input file, sum-up the value into 'sum' variable
        # and calculate the 'avg' too when 'count' will increment once each 4th record in a file is read

                 # its a Ternary operator (condition?if-true:if-false) and finding maximum value

                 if (count==1) min=$0;
                 # keep the first file's 4th line's value as minimum. you could use `NR==4` instead
        count>1 { min=(min<=$0?min:$0);
        # same as max, update the 'min' if value in current file is smaller than 'min' in previous file
    END{ stats=min","max","avg","min"\n"max"\n"avg;
    # saving all variables' value into single variable with comma separated. I used <min"\n"max"\n"avg> as 
    # fourth element which we will use it as "All" option that each separated with newlines.

         split(stats, to_print, ",");
         # building an array called 'to_print' from 'stats' variable above with comma separator to distinguish 
         # the elements from each other.

         print to_print[select];
         # this will print the element which user-input as an option.
         # if input 1: will print 'min'
         # if input 2: will print 'max'
         # if input 3: will print 'avg'
         # if input 4: will print 'min' \n 'max' '\n' avg
    }' {} +


Tal como está escrito, el guión no hará más que imprimir las poblaciones porque el promedio, etc., está comentado.

Para calcular el promedio, esas poblaciones deben enviarse a la función avg () con algo como ...

echo "$(cat populations | avg)"

Se agregarían líneas similares para min () y max ().

Podría usar una caseinstrucción para llamar a las funciones apropiadas ...

case s2
  1|4) echo "$(cat populations | min)" ;;&
  2|4) echo "$(cat populations | max)" ;;&
  3|4) echo "$(cat populations | avg)";;
rm populations

Esto 1|4) echo ...hace que el eco se ejecute si se ingresa 1 o 4. Por lo tanto, los 3 se ejecutarán si se ingresó 4.

PerlDuck: tienes razón (pero es ';; &'). Corregido Gracias.


Gracias por todas las respuestas, esto es lo que terminé con:

### Returns the minimum value by sorting the population file's data and displaying the top line.
 function min () {
         echo "Minimum Population: "$(sort -n populations | head -1)
  ### Returns the maximum value by sorting the population file's data and displaying the bottom line.
 function max () {
         echo "Maximum Population: "$(sort -n populations | tail -1)
  ### A function to return the average number of population.
 function avg () {
         while read line ; do
                 num=`echo ${line#* }`
                 sum=`expr $sum + $num`
                 count=`expr $count + 1`
         done < populations
         avg=`expr $sum / $count`
         echo "Average Population: "$avg
  ### Advises what the script does and asks for an imput of a year.
 echo "
         # Population adviser #
          Please enter the year: "
 read s1
  ### If statement checking the year entered is available, if not then the user is informed of invalid selection and program terminates.
 if [[ $s1 -ge 2000 && $s1 -le 2019 && $s1 -ne 2009 ]] ; then
         continue 2>/dev/null
         echo "The year you entered is not valid, program terminating"
  ### Prompts user for input
 echo "
         Enter an option:
         1. Minimum
         2. Maximum
         3. Average
         4. All
  -----(minimum) (maximum) (average) (all)-----
 read s2
  ### Loops through all files within the given directory path and appends the population of each file to the population list
 for file in $(find ~/filesToSort/$s1 -type f) ; do
         tail -1 $file >> populations
  ### If statement to validate user input and then use the function(s) required
 if [ "$s2" == "minimum" ] ; then
 elif [ "$s2" == "maximum" ] ; then
 elif [ "$s2" == "average" ] ; then
 elif [ "$s2" == "all" ] ; then
         echo "The option you chose is invalid, program terminating"
         rm populations
  ### Removes "populations" file upon completion
 rm populations

Al elegir la opción (1-4) en lugar de poner números, debe introducirse una palabra, lo cual odio, pero me pidieron que lo hiciera de esta manera.

