
Przedstawiamy Voice Design v3
- Kategoria
- Badania
- Data
Najbardziej ekspresyjny model Text to Speech
Z radością pokazujemy Eleven v3 (alpha) —najbardziej ekspresyjny model Text to Speech.
Eleven v3 nie jest już w wersji alpha — jest dostępny dla wszystkich.
ponad 70 językom wymaga więcej prompt engineeringu niż wcześniejsze modele — ale efekty są zachwycające.
Jeśli tworzysz wideo, audiobooki lub narzędzia medialne — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy na żywo jest w przygotowaniu.
Jeśli tworzysz wideo, audiobooki lub narzędzia do pracy z mediami — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy w czasie rzeczywistym jest w przygotowaniu.API.
Dlaczego stworzyliśmy v3ekspresja. Silniejsze emocje, przerywanie rozmowy czy naturalne dialogi były trudne do uzyskania.
Od premiery Multilingual v2 widzimy, jak głos AI trafia do profesjonalnych filmów, gier, edukacji i dostępności. Ale największym ograniczeniem nie była jakość dźwięku — tylko
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Jak używać tagów audioprzewodniku po promptowaniu v3 w dokumentacji.
Tagi audio wpisujesz bezpośrednio w tekst, w nawiasach kwadratowych małymi literami. Więcej o tagach audio znajdziesz w naszym
Profesjonalne klony głosu (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. Na tym etapie najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.
Tworzenie dialogów z wieloma głosamiendpoint Text to Dialogue API. Wystarczy podać uporządkowaną tablicę obiektów JSON — każdy to jedna wypowiedź — a model wygeneruje spójny, nakładający się plik audio:
Endpoint sam zarządza zmianami głosów, emocji i przerwami w rozmowie.
Endpoint sam zarządza zmianami głosów, emocji i przerywaniem.tutaj.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Aby włączyć v3:
Dostęp przez API i wsparcie w Studio pojawią się wkrótce. Jeśli chcesz wcześniejszy dostęp, skontaktuj się z nami.
Kiedy nie używać v3
Eleven v3 (alpha) wymaga więcej prompt engineeringu niż nasze wcześniejsze modele. Gdy działa, efekty są świetne, ale mniejsza przewidywalność i większe opóźnienia sprawiają, że nie nadaje się do rozmów na żywo. Do tego polecamy Eleven v2.5 Turbo/Flash.dokumentacji v3 i FAQ.
Nie możemy się doczekać, jak wykorzystasz v3 w nowych projektach — od opowieści po produkcje filmowe.



