Whisper - mp3-to-txt

Dzięki Whisperowi, modelowi od OpenAi możesz tworzyć transkrypcje audio. Pamiętacie naszą rozmowę z Szymonem Brodziakiem na temat AI na Rynku Kapitałowym?

To właśnie Whisper pomógł nam stworzyć spis treści do naszego filmu na youtube.

Untitled

Okej, to jak to wykonać?

Zakładasz tam konto, bez obaw, pierwsza generacja (tzw. na testa) jest za darmo, później musisz dodać kartę i płacisz za każdą sekundę, gdy używasz jakiejkolwiek karty. Do Whispera jak najbardziej ok będzie Nvidia T4 Gpu (transkrypcja 1.5h filmu z Szymonem kosztowałaby wtedy jakoś 4-5zł).

Untitled

audio: tutaj wrzucasz plik z głosem, z którego chcesz stworzyć transkrypt.
langauge: tutaj wybierasz język, w którym jest audio
temperature: testowałem różne, najlepiej wychodzi to ustawienie z wartością 0.2.

Untitled

Klikasz Run na dole strony. Cały proces trochę trwa, w moim przypadku transkrypcja dla 1.5h pliku audio trwała 30minut.

Untitled

W sekcji output otrzymasz transkrypcję pliku (sekcja transcription:). Koniec. Możesz skopiować ten tekst i zrobić z nim co chcesz, czy to stworzenie podsumowania, czy wypisanie najistotniejszych wątków poruszonych w trakcie rozmowy albo stworzenie wątku na X na temat zagadnienia poruszanego podczas rozmowy - możliwości jest wiele.

Untitled