Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU
AI

Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU

YouTube
Zamiana audio na tekst, wykorzystującą modele Whisper AI i obsługującą układy GPU, dzięki programowi na Windows o nazwie WhisperDesktop.
program: https://github.com/Const-me/Whisper/releases
model językowy: https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
(im większy model to w teorii dokładniejszy - co nie zawsze się sprawdza, ale wolniejszy)(dla j. angielskiego wybrać model _en)
Na moim teście model medium (GPU 2GB) obrabiał 18 minutowe audio PL 13 minut.
Na modelu large -1 godzinę i 14 minut.
Oprócz zamiany audio z pliku, można też używać mikrofonu na żywo, a także tłumaczyć z innych języków.
Podobne programy:
Speech Translate: https://www.youtube.com/watch?v=JkCUVUfpg50
Subtitle Edit (z wbudowana obsługą Whisper) https://www.youtube.com/watch?v=timx-wIGRwk
Buzz: https://www.youtube.com/watch?v=2NDwOoV62-k
#ai #audio2text #rozpoznawaniemowy

Komentarze (1)

ray7

jak ktoś działa w konsoli to wystarczy zainstalować Pythona w wersji przynajmniej 3.8 (na tej na pewno działa bo korzystam). Potem najlepiej stworzyć venva i odpalić "pip install openai-whisper". Ściąga co prawda trochę pakietów (katalog venva ma 3.5GB po instalacji) ale działa od strzała i przy venvie nie zaśmieca globalnej instalacji. Potem wystarczy "whisper nazwa_pliku" (może też być jakiś format video) i tyle. Można też podać jako parametr język albo model (tiny / base / medium itd - jest ściągany automatycznie) i jeszcze kilka zaawansowanych parametrów

Zaloguj się aby komentować