Podsumowanie Audio/Video
Automatyczne generowanie podsumowań z treści audio i wideo przy użyciu AI
� Zobacz Projekt
�📋 Opis Projektu
Aplikacja wykorzystująca Large Language Models do automatycznego generowania podsumowań z plików audio i wideo. Umożliwia szybkie wydobywanie kluczowych informacji z długich nagrań, oszczędzając czas użytkowników.
🎯 Problem
- Długie nagrania audio/wideo są czasochłonne do przesłuchania
- Trudno wydobyć kluczowe punkty z godzinnych prezentacji
- Brak narzędzi do szybkiego przeglądania treści multimedialnych
✨ Rozwiązanie
Aplikacja, która: - 🎤 Transkrybuje audio na tekst - 🤖 Analizuje treść przy użyciu LLM - 📝 Generuje zwięzłe podsumowania - ⏱️ Dodaje timestampy do kluczowych momentów
🛠️ Technologie
📸 Screenshots
🚀 Główne Funkcje
1. Upload i Przetwarzanie
2. Transkrypcja
- Wykorzystanie Whisper API do transkrypcji audio
- Obsługa wielu języków (PL, EN, itp.)
- Wysoka dokładność rozpoznawania mowy
3. Generowanie Podsumowań
- Różne poziomy szczegółowości (krótkie/średnie/długie)
- Automatyczne wydobywanie kluczowych punktów
- Dodawanie timestampów do ważnych fragmentów
4. Export Wyników
- Eksport do PDF
- Eksport do Markdown
- Kopiowanie do schowka
💡 Kluczowe Wyzwania
Długie pliki audio
Problem: Whisper API ma limit długości pliku
Rozwiązanie: Automatyczne dzielenie długich nagrań na chunki
Koszty API
Problem: Wysokie koszty transkrypcji i LLM
Rozwiązanie: Cache'owanie transkrypcji, optymalizacja promptów
Jakość transkrypcji
Problem: Słaba jakość audio wpływa na wyniki
Rozwiązanie: Pre-processing audio (noise reduction)
Możliwe Rozszerzenia
- Wsparcie dla streamingu video (YouTube, Vimeo)
- Automatyczne generowanie mind maps
- Integracja z Notion/Obsidian
- Multi-language support w interfejsie
- Batch processing wielu plików
- Sentiment analysis nagrań
🎓 Czego się Nauczyłem
- Integracja z API OpenAI (Whisper, GPT)
- Obsługa dużych plików multimedialnych w Python
- Optymalizacja kosztów API przez caching
- Tworzenie intuicyjnego UI w Streamlit
- Prompt engineering dla lepszych podsumowań
📝 Wnioski
Projekt pokazuje praktyczne zastosowanie AI do rozwiązywania rzeczywistych problemów. Kluczowe było zbalansowanie jakości wyników z kosztami API oraz utworzenie przyjaznego interfejsu użytkownika.
Status projektu: ✅ Ukończony
Ostatnia aktualizacja: Styczeń 2026
Licencja: MIT



