Dzięki Whisperowi, modelowi od OpenAi możesz tworzyć transkrypcje audio. Pamiętacie naszą rozmowę z Szymonem Brodziakiem na temat AI na Rynku Kapitałowym?
To właśnie Whisper pomógł nam stworzyć spis treści do naszego filmu na youtube.
Okej, to jak to wykonać?
- Wchodzisz na replicate.com
openai/whisper:4d507972 – Run with an API on Replicate
- Zakładasz tam konto, bez obaw, pierwsza generacja (tzw. na testa) jest za darmo, później musisz dodać kartę i płacisz za każdą sekundę, gdy używasz jakiejkolwiek karty. Do Whispera jak najbardziej ok będzie Nvidia T4 Gpu (transkrypcja 1.5h filmu z Szymonem kosztowałaby wtedy jakoś 4-5zł).
- Konfiguracja Whispera, najistotniejsze:
- audio: tutaj wrzucasz plik z głosem, z którego chcesz stworzyć transkrypt.
- langauge: tutaj wybierasz język, w którym jest audio
- temperature: testowałem różne, najlepiej wychodzi to ustawienie z wartością 0.2.
- Klikasz Run na dole strony. Cały proces trochę trwa, w moim przypadku transkrypcja dla 1.5h pliku audio trwała 30minut.
- W sekcji output otrzymasz transkrypcję pliku (sekcja transcription:). Koniec. Możesz skopiować ten tekst i zrobić z nim co chcesz, czy to stworzenie podsumowania, czy wypisanie najistotniejszych wątków poruszonych w trakcie rozmowy albo stworzenie wątku na X na temat zagadnienia poruszanego podczas rozmowy - możliwości jest wiele.