/Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU

Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU

Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU

Sum

w AI 2023-03-03T15:04:15+01:00

Zamiana audio na tekst, wykorzystującą modele Whisper AI i obsługującą układy GPU, dzięki programowi na Windows o nazwie WhisperDesktop.

program: https://github.com/Const-me/Whisper/releases

model językowy: https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main

(im większy model to w teorii dokładniejszy - co nie zawsze się sprawdza, ale wolniejszy)(dla j. angielskiego wybrać model _en)

Na moim teście model medium (GPU 2GB) obrabiał 18 minutowe audio PL 13 minut.

Na modelu large -1 godzinę i 14 minut.

Oprócz zamiany audio z pliku, można też używać mikrofonu na żywo, a także tłumaczyć z innych języków.

Podobne programy:

Speech Translate: https://www.youtube.com/watch?v=JkCUVUfpg50

Subtitle Edit (z wbudowana obsługą Whisper) https://www.youtube.com/watch?v=timx-wIGRwk

Buzz: https://www.youtube.com/watch?v=2NDwOoV62-k

#ai #audio2text #rozpoznawaniemowy

Komentarze (1)

ray7 2023-03-03T20:22:54+01:00

jak ktoś działa w konsoli to wystarczy zainstalować Pythona w wersji przynajmniej 3.8 (na tej na pewno działa bo korzystam). Potem najlepiej stworzyć venva i odpalić "pip install openai-whisper". Ściąga co prawda trochę pakietów (katalog venva ma 3.5GB po instalacji) ale działa od strzała i przy venvie nie zaśmieca globalnej instalacji. Potem wystarczy "whisper nazwa_pliku" (może też być jakiś format video) i tyle. Można też podać jako parametr język albo model (tiny / base / medium itd - jest ściągany automatycznie) i jeszcze kilka zaawansowanych parametrów

Zaloguj się aby komentować