Duże modele są nudne

Śledziłem wczoraj na Twitterze doniesienia z Google I/O 2026 i oczywiście doczekaliśmy się zapowiedzi nowych modeli. Poniżej wkleję te dwa największe:

Gemini 3.5 Flash released
Gemini 3.5 Pro announced

Nie wiem czy to tylko mój problem, ale to ogłoszenie nie zrobiło na mnie żadnego wrażenia. Przypomniała mi się grafika, którą widziałem w jakimś poście i moim zdaniem doskonale oddaje to co się aktualnie dzieje:

The cycle never ends)

Nowe modele są po prostu nudne bo co miesiąc mamy nowy, lepszy LLM. To, że model jest lepszy objawia się po prostu wyższym wynikiem w jednym z syntetycznych testów takich jak SWE-Bench lub Humanity’s Last Exam:

Gemini 3.5 benchmarks

Nie mam pewności, ale wydaje mi się, że dla osób spoza IT te liczby nie mają żadnego znaczenia. Typowy user wybiera LLM ze względu na popularność albo opłacalność. ChatGPT był pierwszy więc ma naturalną przewagę, Google dorzuca swoje modele w ramach usług abonamentowych. Anthropic wybił się na zdolnościach kodowania. Każdy z głównych modeli jest całkowicie wystarczający dla typowego użytkownika. Wydaje mi się, że w “ślepym teście modeli” większość osób (łącznie ze mną) nie byłoby w stanie rozpoznać jakiego dostawcy używa.

Jedną z zalet nowych modeli mogą być świeże dane treningowe (Opus 4.7 ma dane ze stycznia 2026), ale czy jest to tak duża zaleta skoro każdy z nich może wyszukać na bieżąco informacje z sieci? Nie jestem pewien czy typowy user w ogóle zwraca uwagę na ten parametr.

Pamiętam jak w tamtym roku po premierze Claude 3.7 mój były szef nie był w stanie przestać zachwalać tego modelu. Rok później robi pewnie dokładnie to samo z modelem 4.7, a ja zastanawiam się kiedy w końcu uzna, że jakiś model jest wystarczająco dobry. Sytuacja z nadmiarem możliwości przypomina mi trochę sprawę z developmentem aplikacji na Androida. Początki były skromne bo hardware pierwszych telefonów wymagał kompromisów i dbania o optymalizacje. Później RAM był coraz tańszy (były takie czasy…), a CPU coraz lepsze więc nikt nie zawracał sobie głowy wydajnością. Finalnie skończyliśmy na tym, że telefony z Androidem mają po 12-16GB RAM i nikogo to już nie szokuje.

Zdaje sobie sprawę z tego, że nowe modele są odpowiedzią na rozwój agentów, ale nie mogę pozbyć się wrażenia, że nie wykorzystujemy w pełni tego co już mamy tylko wymyślamy koło od nowa. Oczywiście jestem świadomy tego, że to przypomina trochę gonienie króliczka i akcjonariusze spodziewają się pewnie ciągle nowych i lepszych modeli, ale osobiście mam o wiele większą satysfakcję z pracy z małym modelem. Taki model wymusza dyscyplinę i dokładne zaplanowanie tego co chce się z nim zrobić i jakie efekty chce się osiągnąć w przeciwieństwie do dużego modelu, który może praktycznie wszystko. Nie namawiam nikogo do porzucenia top-tier modeli, ale zachęcam do spojrzenia na to co się dzieje też na samym dole stawki.

PS Jeśli tak ma wyglądać przyszłość, to ja dziękuję.

Zobacz też#

Zobacz też