ಸಿಲೆರೊ, ನರಮಂಡಲದ ಭಾಷಣ ಸಂಶ್ಲೇಷಣೆ ವ್ಯವಸ್ಥೆ

ಕೆಲವು ದಿನಗಳ ಹಿಂದೆ ಹೊಸ ಸಾರ್ವಜನಿಕ ಆವೃತ್ತಿಯ ಬಿಡುಗಡೆಯನ್ನು ಘೋಷಿಸಲಾಯಿತು ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ ಸ್ಪೀಚ್ ಸಿಂಥೆಸಿಸ್ ಸಿಸ್ಟಮ್ ಸಿಲೆರೊ ಪಠ್ಯದಿಂದ ಭಾಷಣಕ್ಕೆ, ಆಧುನಿಕ ಉನ್ನತ-ಗುಣಮಟ್ಟದ ಭಾಷಣ ಸಂಶ್ಲೇಷಣೆ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸುವುದು ಯೋಜನೆಯ ಮುಖ್ಯ ಗುರಿಯಾಗಿದೆ, ಅದು ನಿಗಮಗಳ ವಾಣಿಜ್ಯ ಪರಿಹಾರಗಳಿಗಿಂತ ಕೆಳಮಟ್ಟದಲ್ಲಿಲ್ಲ ಮತ್ತು ದುಬಾರಿ ಸರ್ವರ್ ಉಪಕರಣಗಳ ಬಳಕೆಯಿಲ್ಲದೆ ಎಲ್ಲರಿಗೂ ಲಭ್ಯವಿದೆ.

ಮಾದರಿಗಳನ್ನು GNU AGPL ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ಯೋಜನೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಕಂಪನಿಯು ತರಬೇತಿ ಮಾದರಿಗಳ ಕಾರ್ಯವಿಧಾನವನ್ನು ಬಹಿರಂಗಪಡಿಸುವುದಿಲ್ಲ. ಪ್ರಾರಂಭಿಸಲು, ನೀವು ONNX ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಬೆಂಬಲಿಸುವ PyTorch ಮತ್ತು ಫ್ರೇಮ್‌ವರ್ಕ್‌ಗಳನ್ನು ಬಳಸಬಹುದು.

ಪ್ರಸ್ತುತ, ಸಿಲೆರೊ ಇದು ಇಂಗ್ಲಿಷ್, ಸ್ಪ್ಯಾನಿಷ್, ಜರ್ಮನ್, ರಷ್ಯನ್, ಫ್ರೆಂಚ್, ಉಕ್ರೇನಿಯನ್, ಟಾಟರ್, ಉಜ್ಬೆಕ್, ಬಶ್ಕಿರ್, ಇತ್ಯಾದಿಗಳಲ್ಲಿ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿದೆ.

ಸಿಲೆರೊದಲ್ಲಿ ಧ್ವನಿ ಸಂಶ್ಲೇಷಣೆ ಇದು ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಬಳಕೆಯನ್ನು ಆಧರಿಸಿದೆ. ಆಳವಾಗಿ ಮಾರ್ಪಡಿಸಿದ ಆಧುನಿಕ ಮತ್ತು ಡಿಜಿಟಲ್ ಸಿಗ್ನಲ್ ಸಂಸ್ಕರಣಾ ವಿಧಾನಗಳು.

ಎಂದು ಗಮನಿಸಲಾಗಿದೆ ಆಧುನಿಕ ನರಮಂಡಲದ ಪರಿಹಾರಗಳ ಮುಖ್ಯ ಸಮಸ್ಯೆಮಾತಿನ ಸಂಶ್ಲೇಷಣೆಗೆ ರು ಪಾವತಿಸಿದ ಕ್ಲೌಡ್ ಪರಿಹಾರಗಳ ಭಾಗವಾಗಿ ಮಾತ್ರ ಲಭ್ಯವಿದೆ ಮತ್ತು ಸಾರ್ವಜನಿಕ ಉತ್ಪನ್ನಗಳು ಹೆಚ್ಚಿನ ಹಾರ್ಡ್‌ವೇರ್ ಅವಶ್ಯಕತೆಗಳನ್ನು ಹೊಂದಿವೆ, ಕಡಿಮೆ ಗುಣಮಟ್ಟವನ್ನು ಹೊಂದಿವೆ, ಅಥವಾ ಪೂರ್ಣಗೊಂಡಿಲ್ಲ ಮತ್ತು ಬಳಸಲು ಸಿದ್ಧವಾಗಿರುವ ಉತ್ಪನ್ನಗಳಾಗಿವೆ. ಉದಾಹರಣೆಗೆ, ಜನಪ್ರಿಯ ಹೊಸ ಎಂಡ್-ಟು-ಎಂಡ್ ಸಿಂಥೆಸಿಸ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳಲ್ಲಿ ಒಂದನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಚಲಾಯಿಸಲು, VITS, ಸಿಂಥೆಸಿಸ್ ಮೋಡ್‌ನಲ್ಲಿ (ಅಂದರೆ, ಮಾದರಿ ತರಬೇತಿಗಾಗಿ ಅಲ್ಲ), 16 ಗಿಗಾಬೈಟ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚು VRAM ಹೊಂದಿರುವ ವೀಡಿಯೊ ಕಾರ್ಡ್‌ಗಳು ಅಗತ್ಯವಿದೆ.

ಪ್ರಸ್ತುತ ಪ್ರವೃತ್ತಿಗೆ ವಿರುದ್ಧವಾಗಿ, ಸಿಲೆರೊದ ಪರಿಹಾರಗಳು 1 x86 ಥ್ರೆಡ್‌ನಲ್ಲಿಯೂ ಯಶಸ್ವಿಯಾಗಿ ರನ್ ಆಗುತ್ತವೆ AVX2 ಸೂಚನೆಗಳೊಂದಿಗೆ ಇಂಟೆಲ್ ಪ್ರೊಸೆಸರ್. 4 ಪ್ರೊಸೆಸರ್ ಥ್ರೆಡ್‌ಗಳಲ್ಲಿ, 30 kHz ಸಿಂಥೆಸಿಸ್ ಮೋಡ್‌ನಲ್ಲಿ ಪ್ರತಿ ಸೆಕೆಂಡಿಗೆ 60-8 ಸೆಕೆಂಡುಗಳನ್ನು ಸಂಶ್ಲೇಷಿಸಲು ಸಿಂಥೆಸಿಸ್ ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ, 24 kHz ಮೋಡ್‌ನಲ್ಲಿ - 15-20 ಸೆಕೆಂಡುಗಳು, ಮತ್ತು 48 kHz ಮೋಡ್‌ನಲ್ಲಿ - ಸುಮಾರು 10 ಸೆಕೆಂಡುಗಳು.

ಸಿಲೆರೊದ ಹೊಸ ಆವೃತ್ತಿಯ ಮುಖ್ಯ ನವೀನತೆಗಳು

ಪ್ರಸ್ತುತಪಡಿಸಲಾದ ಈ ಹೊಸ ಆವೃತ್ತಿಯಲ್ಲಿ, ಅದನ್ನು ಹೈಲೈಟ್ ಮಾಡಲಾಗಿದೆ ಮಾದರಿಯ ಗಾತ್ರವನ್ನು 2 ಬಾರಿ 50 ಮೆಗಾಬೈಟ್‌ಗಳಿಗೆ ಕಡಿಮೆ ಮಾಡಲಾಗಿದೆ, ಜೊತೆಗೆ ಮಾದರಿಗಳು 10 ಪಟ್ಟು ವೇಗವಾಗಿ ಮಾರ್ಪಟ್ಟಿವೆ ಮತ್ತು ಉದಾಹರಣೆಗೆ, 24 kHz ಮೋಡ್‌ನಲ್ಲಿ, ಅವರು 20 ಪ್ರೊಸೆಸರ್ ಥ್ರೆಡ್‌ಗಳಲ್ಲಿ ಪ್ರತಿ ಸೆಕೆಂಡಿಗೆ 4 ಸೆಕೆಂಡುಗಳವರೆಗೆ ಆಡಿಯೊವನ್ನು ಸಂಶ್ಲೇಷಿಸಬಹುದು.

ಇದಲ್ಲದೆ ಮಾದರಿಗಳಿಗೆ ಹೇಗೆ ವಿರಾಮಗೊಳಿಸಬೇಕೆಂದು ತಿಳಿದಿದೆ, ಅವರು ಮಾಡಬಹುದು ಪೂರ್ಣ ಪ್ಯಾರಾಗಳನ್ನು ಸ್ವೀಕರಿಸಿ ಪಠ್ಯವನ್ನು ಇನ್‌ಪುಟ್ ಆಗಿ, SSML ಟ್ಯಾಗ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಭಾಷೆಯ ಎಲ್ಲಾ ಭಾಷಣ ಆಯ್ಕೆಗಳನ್ನು ಒಂದೇ ಮಾದರಿಯಲ್ಲಿ ಪ್ಯಾಕ್ ಮಾಡಲಾಗುತ್ತದೆ.

ಅದನ್ನೂ ಎತ್ತಿ ತೋರಿಸಲಾಗಿದೆ ಆಯ್ಕೆ ಮಾಡಲು ಮೂರು ಮಾದರಿ ದರಗಳಲ್ಲಿ ಸಂಶ್ಲೇಷಣೆ ಏಕಕಾಲದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ: 8, 24 ಮತ್ತು 48 ಕಿಲೋಹರ್ಟ್ಜ್, “ಮಕ್ಕಳ ಸಮಸ್ಯೆಗಳು”: ಅಸ್ಥಿರತೆ ಮತ್ತು ಪದಗಳ ಲೋಪವನ್ನು ಪರಿಹರಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಉಚ್ಚಾರಣೆಗಳ ಸ್ವಯಂಚಾಲಿತ ನಿಯೋಜನೆ ಮತ್ತು “ё” ಅಕ್ಷರದ ನಿಯೋಜನೆಯನ್ನು ನಿಯಂತ್ರಿಸಲು ಧ್ವಜಗಳನ್ನು ಸೇರಿಸಲಾಗಿದೆ.

ಮತ್ತೊಂದೆಡೆ, ಸೈಲೆರೊ ಸಂಶ್ಲೇಷಣೆಗೆ ಅಂತರ್ಗತವಾಗಿರುವ ಕೆಲವು ವ್ಯವಸ್ಥಿತ ಸಮಸ್ಯೆಗಳಿವೆ ಎಂದು ಸಹ ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ ಮತ್ತು ಅವುಗಳು:

  • RHVoice ನಂತಹ ಹೆಚ್ಚು ಸಾಂಪ್ರದಾಯಿಕ ಸಂಶ್ಲೇಷಣೆಯ ಪರಿಹಾರಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, Silero ನ ಸಂಶ್ಲೇಷಣೆಯು SAPI ಏಕೀಕರಣ, ಸುಲಭವಾಗಿ ಸ್ಥಾಪಿಸಲು ಕ್ಲೈಂಟ್‌ಗಳು ಮತ್ತು Windows ಮತ್ತು Android ಸಂಯೋಜನೆಗಳನ್ನು ಹೊಂದಿಲ್ಲ.
  • ಅಂತಹ ಪರಿಹಾರಕ್ಕಾಗಿ ಅಭೂತಪೂರ್ವ ವೇಗ, ಉತ್ತಮ ಗುಣಮಟ್ಟದ ದುರ್ಬಲ ಪ್ರೊಸೆಸರ್‌ಗಳಲ್ಲಿ ಹಾರಾಟದ ಸಂಶ್ಲೇಷಣೆಗೆ ಸಾಕಾಗುವುದಿಲ್ಲ.
  • ಸ್ವಯಂಚಾಲಿತ ಒತ್ತಡ ಪರಿಹಾರಕವು ಹೋಮೋಗ್ರಾಫ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುವುದಿಲ್ಲ ಮತ್ತು ಇನ್ನೂ ದೋಷಗಳನ್ನು ಮಾಡುತ್ತದೆ, ಆದರೆ ಭವಿಷ್ಯದ ಬಿಡುಗಡೆಗಳಲ್ಲಿ ಈ ದೋಷವನ್ನು ಸರಿಪಡಿಸಲಾಗುತ್ತದೆ.
  • ಸಂಶ್ಲೇಷಣೆಯ ಪ್ರಸ್ತುತ ಆವೃತ್ತಿಯು AVX2 ಸೂಚನೆಗಳಿಲ್ಲದೆ ಪ್ರೊಸೆಸರ್‌ಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ (ಅಥವಾ ನೀವು ನಿರ್ದಿಷ್ಟವಾಗಿ PyTorch ಕಾನ್ಫಿಗರೇಶನ್ ಅನ್ನು ಬದಲಾಯಿಸಬೇಕಾಗಿದೆ), ಏಕೆಂದರೆ ಮಾದರಿಯೊಳಗಿನ ಮಾಡ್ಯೂಲ್‌ಗಳಲ್ಲಿ ಒಂದನ್ನು ಪ್ರಮಾಣೀಕರಿಸಲಾಗಿದೆ.
  • ಸಂಶ್ಲೇಷಣೆಯ ಪ್ರಸ್ತುತ ಆವೃತ್ತಿಯು ಮೂಲಭೂತವಾಗಿ PyTorch ಮೇಲೆ ಮಾತ್ರ ಅವಲಂಬನೆಯನ್ನು ಹೊಂದಿದೆ.
  • ಮೊಬೈಲ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳಿಗೆ ಲಭ್ಯವಿರುವ libtorch ONNX ರನ್‌ಟೈಮ್‌ಗಿಂತ ಹೆಚ್ಚು ತೊಡಕಾಗಿದೆ, ಆದರೆ ONNX ಮಾದರಿಯ ಆವೃತ್ತಿಯನ್ನು ಇನ್ನೂ ಒದಗಿಸಲಾಗಿಲ್ಲ.

ಅಂತಿಮವಾಗಿ ಅದನ್ನು ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ ಮುಂದಿನ ಆವೃತ್ತಿಗೆ ಇದು ಮುಂದಿನ ದಿನಗಳಲ್ಲಿ ಈ ಕೆಳಗಿನ ಬದಲಾವಣೆಗಳೊಂದಿಗೆ ಬಿಡುಗಡೆಯಾಗಲಿದೆ:

  • ಸಂಶ್ಲೇಷಣೆಯ ಪ್ರಮಾಣವು 2 ರಿಂದ 4 ಪಟ್ಟು ಹೆಚ್ಚಾಗುತ್ತದೆ.
  • ಸಿಐಎಸ್ ಭಾಷೆಗಳಿಗೆ ಸಿಂಥೆಸಿಸ್ ಟೆಂಪ್ಲೇಟ್‌ಗಳು: ಕಲ್ಮಿಕ್, ಟಾಟರ್, ಉಜ್ಬೆಕ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಅನ್ನು ನವೀಕರಿಸಲಾಗುತ್ತದೆ.
  • ಯುರೋಪಿಯನ್ ಭಾಷೆಗಳಿಗೆ ಮಾದರಿಗಳನ್ನು ಸೇರಿಸಲಾಗುತ್ತದೆ.
  • ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಮಾದರಿಗಳನ್ನು ಸೇರಿಸಲಾಗುವುದು.
  • ಇಂಗ್ಲಿಷ್‌ಗೆ ಮಾದರಿಗಳನ್ನು ಸೇರಿಸಲಾಗುತ್ತದೆ.

ಚಿಕ್ಕನಿದ್ರೆ ಅದರ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು ಆಸಕ್ತಿ, ನೀವು ವಿವರಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು ಕೆಳಗಿನ ಲಿಂಕ್‌ನಲ್ಲಿ.


ನಿಮ್ಮ ಅಭಿಪ್ರಾಯವನ್ನು ಬಿಡಿ

ನಿಮ್ಮ ಈಮೇಲ್ ವಿಳಾಸ ಪ್ರಕಟವಾದ ಆಗುವುದಿಲ್ಲ. ಅಗತ್ಯವಿರುವ ಜಾಗ ಗುರುತಿಸಲಾಗಿದೆ *

*

*

  1. ಡೇಟಾಗೆ ಜವಾಬ್ದಾರಿ: AB ಇಂಟರ್ನೆಟ್ ನೆಟ್ವರ್ಕ್ಸ್ 2008 SL
  2. ಡೇಟಾದ ಉದ್ದೇಶ: ನಿಯಂತ್ರಣ SPAM, ಕಾಮೆಂಟ್ ನಿರ್ವಹಣೆ.
  3. ಕಾನೂನುಬದ್ಧತೆ: ನಿಮ್ಮ ಒಪ್ಪಿಗೆ
  4. ಡೇಟಾದ ಸಂವಹನ: ಕಾನೂನುಬದ್ಧ ಬಾಧ್ಯತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ ಡೇಟಾವನ್ನು ಮೂರನೇ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಂವಹನ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
  5. ಡೇಟಾ ಸಂಗ್ರಹಣೆ: ಆಕ್ಸೆಂಟಸ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (ಇಯು) ಹೋಸ್ಟ್ ಮಾಡಿದ ಡೇಟಾಬೇಸ್
  6. ಹಕ್ಕುಗಳು: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ಮಿತಿಗೊಳಿಸಬಹುದು, ಮರುಪಡೆಯಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು.