Koniec z klawiaturą. Pracownicy masowo dyktują wszystko AI

W amerykańskich biurach rozprzestrzenia się nowy trend – coraz więcej pracowników porzuca klawiaturę na rzecz dyktowania wszystkiego sztucznej inteligencji. Szept w open space’ach, gęsioszyjkowe mikrofony na biurkach i rozmowy z komputerem stają się codziennością. Czy to przyszłość pracy biurowej?

Rynek technologii głosowych AI eksploduje – wartość samego rynku generatorów głosowych AI wzrośnie z 7,7 mld dolarów w 2025 r. do 21,8 mld dolarów do końca dekady
Dyktowanie jest nawet 4 razy szybsze niż pisanie – pracownicy mogą komunikować się „z prędkością myśli”. To przyciąga early adopterów obsesyjnie nastawionych na produktywność
Technologia w końcu działa – postępy w sztucznej inteligencji sprawiły, że rozpoznawanie mowy przestało być frustrujące i w końcu stało się narzędziem wartym uwagi
Zmiana wymaga czasu. Użytkownicy potrzebują około 2-3 tygodni, by przyzwyczaić się do dyktowania zamiast pisania, a główną barierą pozostaje dyskomfort rozmów z komputerem w biurze

W niektórych firmach zmiana zaczyna się od jednego pracownika, a potem rozprzestrzenia się na kolejnych. Na biurkach pojawiają się mikrofony, a coraz więcej osób rezygnuje z klawiatur, by zamiast tego szeptać polecenia swoim komputerom.

Jeszcze do niedawna oprogramowanie rozpoznające mówienie nigdy nie działało wystarczająco dobrze. Teraz stało się alternatywą dzięki postępom w sztucznej inteligencji, która potrafi zamienić nieuporządkowaną mowę w coś użytecznego.

„Tryb głosowy” zyskuje na popularności wśród early adopterów, nieodparcie przyciąganych obietnicą coraz większej produktywności. Dyktowanie e-maili i raportów zamiast ich pisania oznacza, jak obiecuje jeden ze startupów sprzedających tę technologię, że można wszystko robić „z prędkością myśli”.

Narzędzia te przynoszą również korzyści pracownikom z niepełnosprawnościami oraz programistom, którzy próbują udzielać chatbotom szczegółowych instrukcji, jakich te wymagają.

„Kiedy piszesz, twoje prompty to po prostu śmieci” — mówi Computerworld Tanay Kothari, współzałożyciel i prezes startupu Wispr w San Francisco, zajmującego się transkrypcją. Według niego prompty wypowiadane na głos są zwykle dłuższe i bardziej szczegółowe. „Inżynierowie napiszą 'napraw błąd’. A to nie naprawi błędu” — dodaje Kothari.

Najnowsze osiągnięcia w AI wywołały szaleńczy wyścig o dominację w każdym zakątku rozwijającej się dziedziny. Według doniesień Bloomberga, w styczniu firma Apple zawarła z Google umowę wartą około miliard dolarów rocznie na wykorzystanie modeli Gemini do wspomagania wirtualnego asystenta Siri. Amazon przedstawił odnowionego asystenta głosowego Alexa+, a Microsoft wprowadził „Mico” – świecącą kulę przedstawioną jako „ekspresyjny, konfigurowalny i ciepły” wizualny awatar dla chatbota Copilot. Ma on sprawić, że rozmowa z AI będzie bardziej naturalna.

Miliardy dolarów i rosnący rynek

Wispr twierdzi, że co tydzień dołącza do niego od 150 do 200 nowych zespołów, często zaczynając od jednego działu – takiego jak sprzedaż czy inżynieria – w globalnych firmach, funduszach venture capital i startupach z Doliny Krzemowej.

Rozwijający się rynek samych generatorów głosowych AI został oszacowany przez Grand View Research na wartość 7,7 miliarda dolarów w tym roku i ma osiągnąć 21,8 miliarda dolarów do końca dekady.

Szerszy rynek rozpoznawania mowy i głosu jest jeszcze bardziej imponujący – według MarketsandMarkets globalny rynek rozpoznawania mowy i głosu osiągnął wartość 15,46 miliarda dolarów w 2024 r. i ma wzrosnąć do 81,59 miliarda dolarów do 2032 r., przy rocznej stopie wzrostu wynoszącej 23,1%. Z kolei rynek agentów głosowych AI ma osiągnąć 47,5 miliarda dolarów do 2034 r., rosnąc z 2,4 miliarda dolarów w 2024 r., przy tempie wzrostu wynoszącym 34,8% rocznie.

Jednak nawet silny produkt może być trudny do sprzedania. Rozczarowanie jest powszechne po latach niezrealizowanych obietnic asystentów głosowych, a wiele firm nadal niechętnie daje nowym narzędziom szansę. Pomimo poprawy dokładności, technologia transkrypcji wciąż popełnia błędy – a nie każde zadanie jest równie dobrze dopasowane do głosu.

Poufne rozmowy czy oceny wyników pracowników nie powinny być dyktowane na głos w obecności innych.

Podobnie wyjaśnienie pomysłów często wymaga czasu, a najlepiej robi się to poprzez pisanie i przepisywanie. Czasami „prędkość myśli” powinna być wolna.

Sprawdź też: Prognoza w minutę. AI wypycha meteorologię poza limit dwóch tygodni

Między produktywnością a niezręczną sytuacją

„To jest trochę dziwne” – przyznaje Yash Tekriwal, dyrektor ds. edukacji w platformie sprzedażowo-marketingowej Clay w Nowym Jorku. Mówi, że dla jego współpracowników było to pewnym problemem, gdy zaczął rozmawiać ze swoim komputerem w biurze typu open space w zeszłym roku. „Czy Yash mówi do mnie – wyobraża sobie, że myślą – czy po prostu mówi do siebie?”.

Pomijając niezręczność, tryb głosowy był dla Tekriwala łatwym wyborem, ponieważ zawsze był obsesyjnie nastawiony na produktywność. Jak wielu pracowników umysłowych, spędza większość czasu odpowiadając na wiadomości e-mail i Slack, a tryb głosowy pomaga mu szybciej sobie z tym radzić.

Szacuje, że osiąga średnio około 205 słów na minutę mówiąc, w porównaniu do 110-120 słów podczas pisania.

Teraz „po prostu bolesne jest patrzenie, jak ktoś pisze na ekranie, bo to jest wolne” – mówi Tekriwal. Idąc jego śladem, wszyscy w jego zespole również z tego korzystają, podobnie jak połowa reszty biura.

Boosted.ai, startup z Toronto, który dodał funkcje głosowe do swojej platformy zarządzania inwestycjami w zeszłym roku, twierdzi, że narzędzie jeszcze nie przyjęło się na dużą skalę wśród zarządzających aktywami i innych klientów instytucjonalnych. Większość analityków i inwestorów korzystających z platformy wypróbowała funkcję, która głośno czyta raporty wygenerowanym przez AI głosem, ale znacznie mniejsza część próbowała odwzajemnić się rozmową. Prezes Josh Pantony ma plan: firma pracuje nad funkcją, która pozwoli jej asystentowi głosowemu AI, Alfa, dołączać do spotkań i w nich uczestniczyć.

Pomysł polega na znormalizowaniu rozmów z komputerem poprzez uczynienie tego bardziej podobnym do rozmowy ze współpracownikiem.

Według danych z amerykańskiego Computerworld, firma Wispr odnotowała w tym roku wzrost o około 50% miesiąc do miesiąca zarówno pod względem przychodów, jak i bazy użytkowników, głównie napędzany marketingiem szeptanym. Użytkownicy zgłaszają, że ich życie wygląda inaczej po rozpoczęciu korzystania z Wispr Flow. Średnio zmniejszają swój dzienny czas pisania z pięciu godzin do trzech. Po około pięciu miesiącach 72% aktywności komputerowej użytkowników odbywa się za pomocą Flow, w porównaniu z mniej niż jedną czwartą przy użyciu klawiatury.

Kothari wie, że przełamanie nawyku używania klawiatury wymaga czasu. Szacuje, że użytkownicy potrzebują około dwóch do trzech tygodni, by przystosować się do korzystania z głosu zamiast klawiatury. „To jest zmiana społeczna, która musi nastąpić” – mówi Kothari. „Nie jesteś już szaloną osobą, bo rozmawiasz ze swoim komputerem”.

Technologia wspierana przez sztuczną inteligencję wykorzystuje zaawansowane modele językowe i dane treningowe, aby dokładnie interpretować wzorce głosu i mowy, nawet w trudnych środowiskach z hałasem w tle. Narzędzia takie jak Wispr Flow oferują funkcje takie jak transkrypcja w czasie rzeczywistym, redukcja szumów i integracja z popularnymi menedżerami zadań, co czyni je szczególnie wartościowymi dla profesjonalistów, którzy muszą robić notatki ze spotkań, tworzyć raporty lub zarządzać projektami.

Przyszłość biura może być głośniejsza – lub cichsza, jeśli wszyscy będą szeptać do swoich komputerów. Jedno jest pewne. Rewolucja głosowa właśnie się rozpoczęła, a klawiatura może wkrótce stać się reliktem przeszłości.

Czytaj też: Narzędzie AI od Anthropic wywołało panikę na rynkach