
Porównanie Scribe z modelem OpenAI 4o Speech to Text
Miesiąc po premierze Scribe wciąż udowadnia, że to najdokładniejszy model speech to text na rynku.
W zaledwie miesiąc od premiery nasz model speech to text Scribe przyciągnął tysiące firm dzięki swojej dokładności. Od napisów w mediach po call center i transkrypcje medyczne – Scribe szybko stał się wyborem deweloperów.
Najlepsza wydajność na rynku
Niezależne analizy potwierdziły nasze wyniki – Scribe wypada lepiej niż wszystkie modele, w tym nowe modele transkrypcji 4o od OpenAI. Na przykład, według benchmarku Analiza AI Scribe ma niższy Word Error Rate niż 4o i 4o mini, średnio:
- 4o transcribe popełnia o 16% więcej błędów niż Scribe
- 4o mini transcribe popełnia o 71% więcej błędów niż Scribe

Scribe wypada lepiej lub na równi z modelami 4o i 4o mini w benchmarkach OpenAI w 11 z 15 testowanych języków. Na przykład w japońskim i hindi Scribe jest znacznie lepszy od obu modeli OpenAI według ich własnych testów:
- W japońskim model OpenAI 4o popełnia o 55% więcej błędów niż Scribe, a 4o mini aż o 105% więcej
- W hindi model OpenAI 4o popełnia o 18% więcej błędów niż Scribe, a 4o mini o 37% więcej
Tworząc Scribe, postawiliśmy na praktyczność dla klientów, nawet jeśli czasem wpływa to na wyniki w branżowych benchmarkach. Na przykład:
- Scribe zapisuje liczby jako „jeden”, „dwa”, „trzy”, co jest wygodniejsze w transkrypcjach, ale benchmark FLEURS używa cyfr „1”, „2”, „3”, przez co powstają błędy
- Scribe rozpoznaje słowa typu „yyy”, „hm”, „hej”, co daje więcej kontekstu, ale te słowa nie są uwzględniane w benchmarkach, więc pojawiają się sztuczne błędy
Dlatego warto patrzeć na końcowe wyniki, gdy myślisz o wydajności. Na przykład w angielskim model OpenAI 4o Speech to Text wypada podobnie do Scribe w benchmarkach, ale porównanie transkrypcji pokazuje przewagę Scribe.
Porównanie transkrypcji
W tej analizie transkrypcji z brytyjskiego posiedzenia parlamentu widać, że Scribe nie popełnia błędów, dobrze rozpoznaje akcenty, różne barwy głosu i poprawnie oznacza szumy tła oraz śmiech.
Scribe od ElevenLabs (Czas transkrypcji: 4,66 s)
Czy mogę zapytać szanownego pana jakie działania są podejmowane, by to miejsce było bardziej dostępne, zwłaszcza dla naszych kolegów z niepełnosprawnościami?Brawo, brawo. (szmery na sali) Przepraszam, to chyba przez moje pochodzenie z Antypodów. Czy mógłby pan powtórzyć pytanie? Nie zrozumiałem.(śmiech na sali) Wow. O, wow. Dziś bardzo popularny. Yyy, mówiłem, że kilku posłów z niepełnosprawnościami ma trudności z poruszaniem się po niektórych częściach budynku. Skoro trwa remont, co można zrobić, by osoby z niepełnosprawnościami mogły się swobodniej poruszać i miejsce było dostępne?Pan Paul. (śmiech na sali) Bardzo przepraszam. Czy mógłby pan powiedzieć to bardzo powoli po angielsku z Antypodów? Dziękuję. Po prostu odpowiedz cokolwiek. Myślę, że odpowiedź... może będzie łatwiej, jeśli odpowiesz na piśmie kiedy przeczytasz, panie Marszałku. Dobrze, Chris Elmore. (śmiech) Dziękuję, panie wicemarszałku, spróbuję za pierwszym razem.(szmery na sali) O nie. Jesteś Walijczykiem. Czy mogę- czy mogę- bo ja jestem z Walii, więc niech mu Bóg pomoże.
OpenAI 4o (Czas transkrypcji: 5,01 s)
Czy mogę zapytać szanownego pana jakie działania są podejmowane, by to miejsce było bardziej dostępne, zwłaszcza dla naszych kolegów z niepełnosprawnościami?Przepraszam, to chyba przez moje pochodzenie z Antypodów. Czy mógłby pan powtórzyć pytanie? Nie zrozumiałem.No cóż, dziś bardzo popularny. Widzę, że kilku posłów z niepełnosprawnościami ma trudności z poruszaniem się po niektórych częściach budynku. Skoro trwa remont, co można zrobić, by osoby z niepełnosprawnościami mogły się swobodniej poruszać i miejsce było dostępne?Bardzo przepraszam. Czy mógłbyś powiedzieć to bardzo powoli po angielsku z Antypodów?Myślę, że odpowiedź może być łatwiejsza, jeśli odpowiesz na piśmie kiedy to przeczytasz.Dziękuję, panie wicemarszałku. Spróbuję za pierwszym razem.Bo jestem z Walii, więc niech mu Bóg pomoże.
Dostępność przy transkrypcji jąkania
Każdy postęp w AI to ogromna szansa dla osób jąkających się. Jąkanie, genetyczne zaburzenie mowy, dotyczy ok. 1% ludzi i stanowi wyzwanie dla systemów rozpoznawania mowy. W badaniu, gdzie jąkanie pojawiało się w prawie co czwartym słowie, Scribe osiągnął średnio 98,7% dokładności. To kolejny dowód, że Scribe wyznacza standardy i jest modelem dla każdej firmy.
Rozwiązania dla firm
Scribe sprawdza się w firmach dzięki funkcjom stworzonym z myślą o ich potrzebach.
- Dokładne znaczniki czasowe na poziomie słów to ogromna wartość dla twórców, mediów i rozrywki – zamienisz transkrypcje w napisy, wyszukiwalne wpisy i precyzyjne tłumaczenia.
- Inteligentna diarizacja mówców pozwala podsumować spotkania, prezentacje czy rozmowy z klientami, by wyciągnąć konkretne wnioski i usprawnić współpracę oraz szkolenia w zespole.
- Dynamiczne tagowanie audio daje ci więcej treści i kontekstu z nagrania, np. do analizy nastroju.
- Obsługa 99 języków – dotrzesz do świata dzięki jednej integracji
- Wszystkie te funkcje są dostępne w naszym API, więc deweloperzy mogą budować bez kompromisów
- W najbliższych tygodniach pojawi się wersja Scribe do streamingu na żywo i z niskimi opóźnieniami. To sprawi, że Scribe będzie najnowocześniejszym modelem Speech to Text, który obsłuży każdy biznes i da ci wybór między szybkością, ceną a dokładnością.
Zacznij już dziś
Wypróbuj Scribe, nasz produkt webowy jest darmowy do 9 kwietnia. Ceny Scribe są bardzo konkurencyjne – od 0,22$/godz. dla firm. Jeśli chcesz, napisz do naszego zespołu, chętnie pokażemy demo i pokażemy, jak możemy pomóc twojej firmie.
Przeglądaj artykuły zespołu ElevenLabs


Introducing Experiments in ElevenAgents
The most data-driven way to improve real-world agent performance.

