Wielka Czwórka AI: Crash Test - Część 1: Multimodalność
Artykuł zapowiada serię porównawczych testów czterech wiodących modeli AI (ChatGPT, Gemini, Claude, DeepSeek), skupionych nie na „ładnych odpowiedziach”, lecz na realnych kompetencjach: rozumowaniu, multimodalności i pracy agentowej. Autor pokazuje, że w latach 2025–2026 modele przeszły drogę od rozmówców do systemów wykonawczych, które edytują obrazy, analizują wideo, korzystają z narzędzi i obsługują interfejsy jak człowiek. Jednocześnie rośnie ryzyko subtelnych błędów i halucynacji, trudnych do wychwycenia przez użytkownika. Dlatego testy obejmują m.in. edycję obrazu, logikę, dane, wideo i planowanie agentowe, z naciskiem na metodę działania, spójność i umiejętność przyznania się do ograniczeń. Pierwszy eksperyment dotyczy natywnej edycji obrazu i porównuje Gemini 3 oraz ChatGPT 5.2.