Uso una palabra diferente dependiendo de la manera en que uso los datos. Si he encontrado el conjunto de datos inventado y he apuntado mi algoritmo de manera confirmatoria, entonces la palabra "sintético" está bien.
Sin embargo, a menudo cada vez que uso este tipo de datos, he inventado los datos con la intención específica de mostrar las capacidades de mi algoritmo. En otras palabras, inventé datos con el propósito específico de obtener "buenos resultados". En tales circunstancias, me gusta el término "inventado" junto con una explicación de mis expectativas para los datos. Esto se debe a que no quiero que nadie cometa el error de pensar que apunté mi algoritmo a un conjunto de datos sintéticos arbitrarios que encontré por ahí y realmente funcionó bien. Si tengo datos seleccionados (hasta el punto de inventarlos) específicamente para hacer que mi algoritmo funcione bien, lo digo. Esto se debe a que dichos resultados proporcionan evidencia de que mi algoritmo puedefunciona bien, pero proporciona evidencia muy débil de que uno podría esperar que el algoritmo funcione bien en general . La palabra "artificial" realmente resume muy bien el hecho de que he elegido los datos con "buenos resultados" en mente, a priori.
"¿eso da la impresión de datos fraudulentos ?"
No, pero es importante tener claro el origen de cualquier conjunto de datos y sus expectativas a priori como experimentador al informar sus resultados en cualquier conjunto de datos. El término "fraude" incluye explícitamente un aspecto de haber ocultado algo o haber mentido abiertamente. La forma # 1 de evitar la comisión de fraude en la ciencia es simplemente ser honesto y directo sobre la naturaleza de sus datos y sus expectativas. En otras palabras, si sus datos son fabricados y usted no puede decir tanto de ninguna manera , y existe algún tipo de expectativa de que los datos no son fabricados o, lo que es peor, usted afirma que los datos se recopilan de algún modo no fabricado de manera, entonces eso es"fraude". No hagas eso. Si desea utilizar algún sinónimo del término "fabricado" que "suena mejor", como "sintético", nadie lo criticará, pero al mismo tiempo no creo que nadie note la diferencia, excepto usted.
Una nota al margen:
Menos obvias son las circunstancias en las que uno afirma haber tenido expectativas a priori que en realidad son explicaciones post hoc . Este también es un análisis fraudulento de datos.
Existe el peligro de que esto ocurra cuando se eligen datos específicamente con la intención de "mostrar" las capacidades de un algoritmo, que suele ser el caso de los datos sintéticos.
reHHrere
HreHre
No hay ningún problema al hacer esto, siempre y cuando sea honesto y directo sobre lo que ha hecho. Si ha pasado por dificultades para crear un conjunto de datos que ofrezca "buenos resultados", dígalo. Siempre que le haga saber al lector los pasos que ha tomado en su análisis de datos, tendrá la información necesaria para evaluar de manera efectiva la evidencia a favor o en contra de sus hipótesis. Cuando no eres honesto o no eres franco , esto puede dar la impresión de que tu evidencia es más fuerte de lo que realmente es. Cuando usted SABE MUCHO menos que honesto y directo para hacer que su evidencia parezca más fuerte de lo que realmente es, entonces eso es, de hecho, fraudulento.
En cualquier caso, esta es la razón por la que prefiero el término "inventado" para tales conjuntos de datos, junto con una breve explicación de que, de hecho, se eligen con una hipótesis en mente. "Contribuido" transmite la sensación de que no solo creé un conjunto de datos sintético, sino que lo hice con intenciones particulares que reflejan el hecho de que mi hipótesis ya estaba en su lugar antes de la creación de mi conjunto de datos.
UNArex . y
tl; dr
Use el término que desee, "sintético", "artificial", "fabricado", "ficticio". Sin embargo, el término que utiliza es insuficiente para garantizar que sus resultados no sean engañosos . Asegúrese de tener claro en su informe cómo surgieron los datos, incluidas sus expectativas sobre los datos y las razones por las que eligió los datos que eligió.