Tengo muchos contenidos de video de conferencias para los que me gustaría tener los subtítulos. YouTube genera automáticamente subtítulos para videos bajo ciertas condiciones (esas condiciones siguen siendo un misterio para mí).
Me gustaría poder utilizar esta tecnología de reconocimiento de voz fuera de YouTube. No quiero subir todos los videos solo para obtener la transcripción (demasiado tiempo), además, no creo que YouTube lo haga para videos que duran más de 30 minutos (la mayoría de ellos son), además, yo no piense que lo hará para los videos que no están en la lista pública (lo cual es un problema porque es contenido premium que se debe vender).
Escenario perfecto: hay un programa que puedo ejecutar desde mi escritorio para obtener la transcripción de estos videos y es de igual o mejor calidad que la de YouTube y tiene códigos de tiempo similares a un SRT o XML que YouTube genera [ Cómo obtener subtítulos de YouTube ].
Escenario aceptable: hay algunos trucos que puedo hacer para obligar a YouTube a transcribir los videos, ya sean privados o públicos, y a pesar de la duración.
Escenario factible: hay una biblioteca o algo que puedo usar para codificar mi propio programa. Soy bueno con C # y estoy de acuerdo con C ++ (pero realmente prefiero C #).