Visión de conjunto
Hay muchas representaciones posibles, y por lo tanto esquemas de bases de datos, para almacenar fechas y horas difusas (o incluso solo fechas difusas):
- Fecha-hora y código que indica su precisión o exactitud
- Fecha-hora e intervalo donde hay varias posibilidades para representar un intervalo:
- Representar todos los intervalos como una cantidad entera (u otra cantidad numérica) de alguna unidad fija, por ejemplo, días, minutos, nanosegundos.
- Representa un intervalo como una cantidad entera (u otra cantidad numérica) y un código que indica sus unidades.
- Fecha y hora de inicio y finalización
- Cuerda
- Distribución de probabilidad:
- Cantidades decimales o de coma flotante para los parámetros que especifican una distribución específica en una familia particular, por ejemplo, la media y la desviación estándar de una distribución normal.
- Función de distribución de probabilidad, por ejemplo, como un código (de búsqueda) (potencialmente con parámetros de valores específicos), o como una expresión en un lenguaje, formato o representación suficientemente expresivo.
[1], [2] y [3] son todos (implícitamente) intervalos uniformes, es decir, un conjunto de puntos (igualmente) posibles en el tiempo.
[4] es el más expresivo, es decir, cuando permite oraciones o frases escritas posibles (o al menos arbitrariamente largas). Pero también es el más difícil de trabajar. En el límite, se requeriría una IA de nivel humano para manejar valores arbitrarios. Prácticamente, el rango de valores posibles necesitaría restringirse severamente, y probablemente se preferirían valores 'estructurados' alternativos para muchas operaciones, por ejemplo, ordenar, buscar.
[5] es probablemente la representación compacta más general que es (algo) práctica.
Intervalos uniformes
Los intervalos uniformes son la forma compacta más simple de representar un conjunto de valores (posibles) de fecha y hora.
Para [1], se ignoran porciones del valor de fecha y hora, es decir, las porciones correspondientes a unidades más finas que la precisión o exactitud indicada; de lo contrario, esto es equivalente a [2] y el código de precisión / exactitud es equivalente a un intervalo con las mismas unidades (y una cantidad implícita de 1).
[2] y [3] son expresamente equivalentes. [1] es estrictamente menos expresivo que cualquiera de los dos, ya que existen intervalos efectivos que no pueden representarse por [1], ej. una fecha y hora difusa equivalente a un intervalo de 12 horas que abarca un límite de fecha.
[1] es más fácil de ingresar para los usuarios que cualquier otra representación y generalmente debería requerir (al menos un poco) menos tipeo. Si se pueden ingresar fechas y horas en varias representaciones de texto, por ejemplo, "2013", "2014-3", "2015-5-2", "30/7/2016 11p", "2016-07-31 18:15" , la precisión o exactitud también podría inferirse automáticamente de la entrada.
La precisión o precisión de [1] también es más fácil de convertir a un formulario para ser transmitido a los usuarios, por ejemplo, '2015-5 con precisión de mes' a "mayo de 2015", frente a "13 de mayo de 2015 2p, más o menos 13.5 días" (aunque tenga en cuenta que este último no puede ser representado por [1] de todos modos).
Instrumentos de cuerda
Prácticamente, los valores de cadena deberán convertirse a otras representaciones para consultar, ordenar o comparar valores múltiples. Entonces, si bien cualquier lenguaje natural (humano) escrito es estrictamente más expresivo que [1], [2], [3] o [5], todavía no tenemos los medios para manejar mucho más allá de las representaciones o formatos de texto estándar. Dado eso, esta es probablemente la representación menos útil por sí misma .
Una ventaja de esta representación es que, en la práctica, los valores deben ser presentables a los usuarios tal cual y no requieren transformación para ser fácilmente comprensibles.
Distribuciones de probabilidad
Las distribuciones de probabilidad generalizan las representaciones de intervalo uniformes [1], [2], [3] y (posiblemente) son equivalentes a la representación de cadena (general) [4].
Una ventaja de las distribuciones de probabilidad sobre las cadenas es que la primera es inequívoca.
[5-1] sería apropiado para valores que (en su mayoría) se ajustan a una distribución existente, por ejemplo, una salida de valor de fecha y hora de un dispositivo para el que se sabe (o se piensa) que las mediciones se ajustan a una distribución específica.
[5-2] es probablemente la mejor forma (algo) práctica de representar de forma compacta los valores arbitrarios de 'fecha y hora difusa'. Por supuesto, la computabilidad de las distribuciones de probabilidad específicas utilizadas es importante y definitivamente hay problemas interesantes (y tal vez imposibles) que se deben resolver al consultar, ordenar o comparar diferentes valores, pero es probable que mucho de esto ya se conozca o se resuelva en algún lugar de los existentes. literatura matemática y estadística, por lo que definitivamente es una representación extremadamente general y poco ambigua.