Strumento di sintesi vocale di Kdenlive. Questa è la mia esperienza

Strumento da discorso a testo

La scorsa settimana, Pablinux ti ha parlato della nuova versione di Kdenlive, lo strumento di editing video del progetto KDE. Come ho commentato una volta, preferisco OpenShot che ha una curva di apprendimento più bassa, maDato che ero molto interessato allo strumento di sintesi vocale che questa nuova versione incorpora, ho deciso di esaminarlo.

Sebbene abbia scritto la mia quota di articoli su alternative Linux a questo o quel programma Windows (nessuno può definirsi un blogger Linux se non ne ha scritto uno), questo non è un approccio che mi piace. Penso che i programmi dovrebbero essere discussi in base alle loro caratteristiche. Se devo definire Kdenlive in qualche modo, dirò che è un editor video per hobbisti che vogliono che le loro creazioni abbiano un aspetto professionale.

L'ho detto in passato e lo tengo (vieni uno per uno) quello Il software gratuito e open source dispone di librerie per lavori multimediali che fanno sembrare i prodotti Adobe e Blackmagic semplici giocattoli. Il grosso problema è che nessuno era interessato a mettere insieme questi strumenti con un'interfaccia semplice e accattivante e una documentazione completa e di facile comprensione. Sebbene Kdenlive sia ben lungi dall'aver raggiunto il suo obiettivo, i suoi sviluppatori sono sulla strada giusta.

Nel caso della capacità di convertire il parlato in testo, Kdenlive utilizza due strumenti dall'arsenale del repository del Indice dei pacchetti Python.

Vosk è un toolkit di riconoscimento vocale open source e offlinen. Offre modelli di riconoscimento vocale per 17 lingue e dialetti: inglese, inglese indiano, tedesco, francese, spagnolo, portoghese, cinese, russo, turco, vietnamita, italiano, olandese, catalano, arabo, greco, farsi e filippino.

Kdenlive utilizza modelli Vosk tramite un modulo scritto in Python.

Tuttavia, avere la trascrizione non è sufficiente. Devi anche sincronizzarlo con il video. Per questo abbiamo bisogno di un altro modulo in Python per creare i sottotitoli.

Kdenlive verificherà che questi moduli siano installati. PPer fare ciò devi prima installare il pacchetto python3-pip sulla tua distribuzione e poi eseguire i comandi:

pip3 install vosk

pip3 install srt

Successivamente, dobbiamo installare i modelli vocali. Per questo apriamo Kdenlive e lo faremo Impostazioni Configura Kdenlive Speech to Text.

Per caricare i modelli hai due opzioni: oppure scarica i modelli da questa pagina e caricarli manualmente (È necessario prima selezionare la casella Cartelle modem personalizzate) o incollare il collegamento dall'elenco che mostra la stessa pagina.

Utilizzo dello strumento Speech to Text

  1. Assicurati nel menu Visualizza di avere l'opzione dei sottotitoli attivata. Quindi, carica il video che desideri trascrivere.
  2. Sposta il video sulla prima traccia video e fai scorrere la linea blu lungo la durata che desideri trascrivere.
  3. Fare clic sulla scheda dei sottotitoli e quindi sul segno +
  4. In alto viene aggiunto un suggerimento. Fare clic sull'icona a sinistra dell'occhio.
  5. Seleziona il modello di trascrizione e, se desideri trascrivere una clip, tutte le clip in una timeline o una parte della timeline. Fare clic su Processo

Ho confrontato Speech to tech con la versione gratuita di uno strumento cloud e ho visto video con sottotitoli da Youtube e piattaforme di corsi a pagamento. Devo dire che non è perfetto, ma non è peggiore delle alternative menzionate. Ha problemi quando coloro che parlano non hanno una buona dizione o lo fanno sulla musica o su qualche altro suono. Ma, immaginando la domanda che mi stanno facendo, sì, può essere usato per sottotitolare una serie o un film. Sebbene, a causa delle limitazioni indicate, potrebbe essere necessario completarli a mano.

E, se i ragazzi di Kdenlive mettessero un po 'le batterie e integrassero un modulo di traduzione, la cosa sarebbe perfetta.

C'è qualcosa che potrebbe essere migliorato. Oggi, se vuoi cambiare l'aspetto dei sottotitoli, dovrai inserire il codice. E non c'è modo di esportarli. Potrai solo vederli incorporati nel video.

Ma, come ho detto sopra, senza dubbio il progetto è sulla buona strada.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.

  1.   Gabriele De Luca suddetto

    Nella casella di modifica in alto a destra puoi selezionare tutto il testo, copiarlo negli appunti e poi incollarlo dove vuoi