Transkrypcja audio
Moi kochani, jeżeli tworzycie treści video, jakieś podcasty a nawet tiktoki czy shorty na YT lub tłumaczenia z audio.
Jest takie ciekawe narzędzie do transkrypcji, projekt [Whisper](  https://github.com/openai/whisper ) od OpenAI czyli od twórców ChatGPT, to musi być dobre!
No jest ale ma kosmiczne wymagania, projekt jest pythonie, z masą zależności i uj wie czego, normalnie kobyła.
Ktoś rozsądny wpadł na pomysł przepisania tego do C/C++ przez co powstała windowsowa apka i biblioteka o wadze 1MB
https://github.com/Const-me/Whisper/
Jakie są efekty takiego automatu?
Zerknijcie na przykładzie zapisu z live, gdzie live trwa ok 57 minut, a transkrypcja za pomocą w/w apki zajmuje 5 minut 57 sekund(Ryzen 7 5800X + RTX3070)
https://youtube.com/live/VtxKj2S2VV8
#chatgpt #podcast #programowanie #youtube #komputery
1c95ed9c-9a00-47ed-b462-7a1fb579e254
bob-dylan

I co to? Generuje napisy do filmu?

Pan_Slon

@bob-dylan tak i może nawet tłumaczenie zrobić

MESSIAH

Działa z ruskim jeztki m?

Pan_Slon

@MESSIAH nie wiem, nie sprawdzałem ale powinno

Catharsis

A to nie tak, że większość bibliotek do AI w Pythonie i tak jest napisana w C++ więc pewnie wydajnościowo nie było tutaj dużej różnicy? Zgaduje że ktoś po prostu zrobił z tego bundla i wpakował do jednego pliku .exe dla ułatwienia ale może czegoś nie wiem.


"projekt jest pythonie, z masą zależności i uj wie czego, normalnie kobyła." Z tego co widzę to trzeba mieć jedynie zainstalowanego Pythona, ffmpeg i Rusta więc bez przesady xD. Na Linuxie to jest jedna komenda a na Windowsie przeklikanie 3 instalatorów (no chyba że używasz choco albo wingeta to też jedna komenda).


Btw z tego co widzę to są już nawet skrypty do zainstalowania tego w AUR więc jak ktoś korzysta z Arch Linuxa i pochodnych to zainstalowanie tego to dosłownie jedna komenda.


Zgaduje że takie GUI z instalatorem będzie wielkim ułatwieniem dla mniej "komputerowych" osób więc ogólnie na plus ale generalnie to zachęcam żeby się nie bać konsolowych programów bo skoro w GUI to jest jedno kliknięcie to zazwyczaj korzystanie z takiego programu w konsoli to też jest tylko jedna komenda. Zresztą jest nawet pokazane w tym repo gita. Dzięki za wrzute, na pewno się przyda.

285a81a7-f2a2-4d88-ad94-4a3bdb9dda0d
Pan_Slon

@Catharsis spoko ale może najpierw sprawdź bo jest ściana tekstu o domysłach a to jest przygotowane w formie trywialno-minimalistycznej a nie jakieś konsole itp. Ja sobie z tym radzę ale po co ? Wydajność na oko jest 3-5 razy lepsza niż oryginał przy bazie large i mniejszych wymaganiach sprzętowych, np baza large wymaga w pythonie gpu z min 10gb ram a tutaj już 4-6gb podejdzie

koko

@Catharsis Ten projekt używa ggml, ten od openai PyTorch, więc to nie jest to samo. Python to gówno i tyle, prototypy na szybko można zrobić, ale integrowanie tego z jakąś poważniejszą aplikacją to porażka, więc ta biblioteka jest świetna.

Catharsis

@Pan_Slon Tylko drugie zdanie i druga połowa pierwszego zdania w tej "ścianie tekstu" jest domysłami. Reszta to fakty, bądź też moje przemyślenia.

Pan_Slon

@Catharsis całość to domysły lub zgadywanie jeżeli mam przyjąć uproszczenie, dyskusja o niczym w sumie bo to jakbyś chciał przekonać do używania kobyły bo konsola i cli nie jest straszne a nawet to łatwe to po co jakieś wynalazki tyle ze wynalazłek razem z dll to 1 megabajt, nie trzeba nic robic, ani jednego zbędnego klika bo nie potrzeba tego instalować a jak bardzo chcesz to jest tez wersja cli do integracji czy oskryptowania. Dlatego o tym pisze bo to jest świetne i łatwe. Miłego weekendu

Mr.W

@Pan_Slon ziomuś, pyta człowiek o minimalnej znajomości informatyki Czyli jak mam podcast,mogę to gdzieś "wrzucić" i zrobi mi transkrypcję tekstu? Dobrze rozumiem?

Zaloguj się aby komentować