Koniec ery GPU? Amazon i Cerebras przepisują reguły gry w AI

AWS podpisał wieloletnią umowę z Cerebras Systems – startupem, którego chipy do wnioskowania działają nawet 25 razy szybciej niż układy Nvidii. Branża AI przechodzi fundamentalną zmianę. Liczy się już nie tylko trening modeli, ale przede wszystkim błyskawiczna odpowiedź na zapytanie użytkownika. Jeśli budujesz produkt oparty na AI – ten trend dotyczy cię bezpośrednio.

AWS i Cerebras łączą siły, by zaoferować wnioskowanie AI nawet 25 razy szybsze niż GPU Nvidii
Branża AI przestawia się z trenowania modeli na błyskawiczne odpowiadanie na zapytania użytkowników
Szybkość inference staje się kluczową przewagą konkurencyjną dla firm budujących produkty oparte na AI
Rynek chipów AI dywersyfikuje się – Nvidia traci monopol, a startupy jak Cerebras i Groq wyznaczają nowe standardy

Twoja firma potrzebuje leadów kwalifikowanych? Rozpocznij współpracę

Od treningu do wnioskowania – zmiana, którą musisz znać

Przez ostatnie lata cały wyścig AI kręcił się wokół jednego: kto wytrenuje większy model. Firmy prześcigały się w liczbie parametrów, wielkości klastrów obliczeniowych i czasie uczenia. GPU Nvidii stały się synonimem sztucznej inteligencji – każdy, kto chciał cokolwiek zbudować, ustawiał się w kolejce po karty H100. Teraz rynek zaczyna mówić coś innego.

Dziś miliony użytkowników codziennie wysyłają zapytania do ChatGPT, Gemini czy Claude’a. Modele są już wytrenowane – teraz kluczowe jest to, jak szybko odpowiedzą. I właśnie tu pojawia się problem. GPU, choć świetne do treningu, niekoniecznie nadają się do błyskawicznego wnioskowania. Są zbyt „ciężkie” architekturalnie dla zadań, które wymagają ultra-niskich opóźnień. Rynek zaczyna to dostrzegać i reaguje.

Chip wielkości talerza, który bije Nvidię 25 do 1

Cerebras Systems to startup z Doliny Krzemowej, który od lat szedł pod prąd. Zamiast produkować małe chipy łączone w klastry, postawił na jeden ogromny układ – Wafer-Scale Engine – zajmujący dosłownie cały wafel krzemowy. Efekt? Przy zadaniach wnioskowania – konkretnie w fazie generowania tokenów w odpowiedzi na zapytanie – ich chip jest nawet 25 razy szybszy niż flagowe GPU Nvidii.

To właśnie dlatego w styczniu OpenAI podpisał z Cerebras umowę wartą ponad 10 miliardów dolarów. A teraz dołącza AWS – największy dostawca chmury na świecie.

W ramach wieloletniej umowy Amazon będzie łączył chipy Cerebras z własnymi układami Trainium w swoich centrach danych, oferując klientom jedne z najszybszych usług wnioskowania dostępnych komercyjnie. CEO Cerebras Andrew Feldman powiedział, że „więcej ludzi korzysta z AI, korzysta częściej i używa tej technologii do rozwiązywania trudniejszych problemów”. Dodał:

Jeśli chcesz wolnego wnioskowania, znajdziesz tańsze opcje. Ale jeśli liczy się dla ciebie prędkość tokenów – jeśli programujesz albo wykonujesz pracę agentami AI – nie tylko jesteśmy absolutnie najszybsi, ale zamierzamy wyznaczać standardy
— Andrew Feldman, CEO Cerebras

Sprawdź też: Nestlé buduje cyfrową przyszłość w oparciu o SAP S/4HANA Cloud

Co to oznacza dla ciebie – i dla twojej firmy

Nie jesteś Amazonem ani OpenAI? Nieważne – ta zmiana dotyczy każdego, kto dziś buduje lub planuje budować produkty oparte na AI. Oto kilka konkretnych wniosków:

1. Czas odpowiedzi staje się przewagą konkurencyjną. Jeśli twój chatbot, asystent czy agent AI odpowiada w 3 sekundy, a konkurent w 0,3 sekundy – użytkownik to poczuje. Infrastruktura inference przestaje być szczegółem technicznym, a staje się elementem UX.
2. Ceny usług AI spadną – ale nie równomiernie. AWS zapowiada model dwupoziomowy: szybkie wnioskowanie z chipami Cerebras jako usługa premium, wolniejsze z samymi Trainium – taniej. Przy planowaniu kosztów warto już dziś zastanowić się, które zadania wymagają prędkości, a które nie.
3. Dywersyfikacja dostawców to nowa norma. Nvidia wciąż dominuje, ale coraz więcej firm buduje architekturę opartą na wielu dostawcach. Jeśli zależy ci na ciągłości działania i odporności na szoki podażowe – warto śledzić alternatywy: Cerebras, Groq, układy własne AWS czy Google.
4. Agenci AI to doskonały case study dla szybkiego inference. Feldman wymienia programowanie i pracę agentów AI jako obszary, gdzie prędkość ma krytyczne znaczenie. Jeśli planujesz wdrożyć agentów AI w firmie – infrastruktura obliczeniowa powinna być jednym z pierwszych pytań, które zadasz dostawcy.

Nvidia nie śpi – ale presja rośnie

Nie myśl jednak, że Nvidia stoi bezczynnie. W grudniu firma podpisała umowę licencyjną wartą 20 miliardów dolarów ze startupem Groq i planuje wkrótce zaprezentować nowy system przetwarzania zoptymalizowany właśnie pod inference. Wyścig przyśpiesza, ale jego kierunek jest jasny. Architektura AI przesuwa się z fazy budowania modeli ku fazie ich masowego, codziennego używania.

Dla Cerebras umowa z AWS to przełom po trudnym okresie: firma wycofała się z IPO w 2024 r., ale w lutym tego roku zebrała miliard dolarów w nowej rundzie finansowania, osiągając wycenę 23 miliardów dolarów. Teraz jej chipy trafią do największej chmury świata. Dla całej branży to sygnał, że era wnioskowania właśnie się zaczęła.

Trzy pytania, które warto zadać swojemu dostawcy chmury już dziś:

Jaką infrastrukturę inference oferujesz i jakie są gwarantowane opóźnienia (latency)?
Czy oferujesz model hybrydowy – szybkie chipy do zadań krytycznych i tańsze do zadań wsadowych?
Jak wyglądają twoje plany w kontekście alternatyw dla GPU Nvidii?

Czytaj też: Twoja praca znika. Jak nie dać się zastąpić przez AI?