Bueno, entonces: bienvenido al mundo R ;-)
Aqui tienes
Configurando el código
urls <- c(
"http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html",
"http://en.wikipedia.org/wiki/Xz",
"xxxxx"
)
readUrl <- function(url) {
out <- tryCatch(
{
# Just to highlight: if you want to use more than one
# R expression in the "try" part then you'll have to
# use curly brackets.
# 'tryCatch()' will return the last evaluated expression
# in case the "try" part was completed successfully
message("This is the 'try' part")
readLines(con=url, warn=FALSE)
# The return value of `readLines()` is the actual value
# that will be returned in case there is no condition
# (e.g. warning or error).
# You don't need to state the return value via `return()` as code
# in the "try" part is not wrapped insided a function (unlike that
# for the condition handlers for warnings and error below)
},
error=function(cond) {
message(paste("URL does not seem to exist:", url))
message("Here's the original error message:")
message(cond)
# Choose a return value in case of error
return(NA)
},
warning=function(cond) {
message(paste("URL caused a warning:", url))
message("Here's the original warning message:")
message(cond)
# Choose a return value in case of warning
return(NULL)
},
finally={
# NOTE:
# Here goes everything that should be executed at the end,
# regardless of success or error.
# If you want more than one expression to be executed, then you
# need to wrap them in curly brackets ({...}); otherwise you could
# just have written 'finally=<expression>'
message(paste("Processed URL:", url))
message("Some other message at the end")
}
)
return(out)
}
Aplicando el código
> y <- lapply(urls, readUrl)
Processed URL: http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html
Some other message at the end
Processed URL: http://en.wikipedia.org/wiki/Xz
Some other message at the end
URL does not seem to exist: xxxxx
Here's the original error message:
cannot open the connection
Processed URL: xxxxx
Some other message at the end
Warning message:
In file(con, "r") : cannot open file 'xxxxx': No such file or directory
Investigando la salida
> head(y[[1]])
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">"
[2] "<html><head><title>R: Functions to Manipulate Connections</title>"
[3] "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"
[4] "<link rel=\"stylesheet\" type=\"text/css\" href=\"R.css\">"
[5] "</head><body>"
[6] ""
> length(y)
[1] 3
> y[[3]]
[1] NA
Observaciones adicionales
trata de atraparlo
tryCatch
devuelve el valor asociado a la ejecución a expr
menos que haya un error o una advertencia. En este caso, se pueden especificar valores de retorno específicos (ver return(NA)
arriba) al proporcionar una función de controlador respectiva (ver argumentos error
y warning
en ?tryCatch
). Estas pueden ser funciones que ya existen, pero también puede definirlas dentro tryCatch()
(como hice anteriormente).
Las implicaciones de elegir valores de retorno específicos de las funciones del controlador
Como hemos especificado que NA
debería devolverse en caso de error, el tercer elemento en y
es NA
. Si hubiéramos elegido NULL
para ser el valor de retorno, la longitud de y
sólo habría sido 2
en lugar de 3
como lapply()
será simplemente "ignorar" los valores de retorno que son NULL
. También tenga en cuenta que si no especifica un valor de retorno explícito a través de return()
, las funciones del controlador volverán NULL
(es decir, en caso de un error o una condición de advertencia).
Mensaje de advertencia "no deseado"
Como warn=FALSE
no parece tener ningún efecto, una forma alternativa de suprimir la advertencia (que en este caso no es realmente interesante) es utilizar
suppressWarnings(readLines(con=url))
en vez de
readLines(con=url, warn=FALSE)
Expresiones múltiples
Tenga en cuenta que también puede colocar varias expresiones en la "parte de expresiones reales" (argumento expr
de tryCatch()
) si las coloca entre corchetes (tal como lo ilustré en la finally
parte).
paste
funciones termina con un espacio, ¿por qué no omite el espacio y elsep=""
?