Licznik kalorii ze zdjęcia: jak działa AI w 2026

Najbardziej szkodliwa reklama aplikacji AI mówi „dokładnie liczy kalorie ze zdjęcia w 3 sekundy".

Bo żadne z trzech słów nie jest prawdą. „Dokładnie" — AI ma typowy margines błędu ±15-30%. „Liczy" — AI szacuje, na podstawie wzorca. „W 3 sekundy" — analiza dobrego modelu vision zajmuje 7-12 sekund.

I to nie jest problem aplikacji. To jest problem reklamy.

Wyobraź sobie dwa zdjęcia: sałatka caesar i porcja frytek. Pytanie dla Ciebie: ile kalorii ma każde? Przy caesar — może 350? A może 600, jeśli sos podany hojnie i parmezan grubą warstwą? Przy frytkach — 400? Czy 700, bo to porcja XL z fastfooda? Twoja odpowiedź jest estymatą. Nie mylisz się dramatycznie — masz w głowie wzorzec sałatki i wzorzec frytek. Ale dokładności na poziomie ±15 kcal po prostu nie masz.

I tu jest dobra wiadomość: AI też nie ma. To jest pierwsza rzecz, której nikt nie powie Ci w reklamie aplikacji.

Ten artykuł jest o tym, co AI w 2026 roku faktycznie potrafi — i czego nie potrafi — kiedy patrzy na zdjęcie jedzenia. Bez magii. Bez marketingu. Pod maską.

Computer vision dla jedzenia — w skrócie i bez slajdów konferencyjnych

Cała kategoria „AI która rozpoznaje co jest na zdjęciu" istnieje od kilkunastu lat. Wcześniej to były klasyczne sieci konwolucyjne, trenowane na milionach obrazów z etykietami. Po 2020 roku dominującym podejściem stały się modele multimodalne — czyli takie, które jednocześnie rozumieją obraz i tekst. Możesz im pokazać zdjęcie i zadać pytanie zdaniem.

W 2026 roku flagowe modele tej kategorii (Anthropic Claude Sonnet, OpenAI GPT-4 Vision, Google Gemini, Llama Vision od Mety) potrafią rozpoznać kilka tysięcy kategorii jedzenia. Nie z perfekcją — ale na poziomie wystarczającym do większości codziennych zastosowań. Sałatka caesar od kebaba? Niezawodnie. Cassoulet od bourguignon? Dobry model trafi w 80% przypadków. Polski schabowy od kotleta Mediolano? Tu już bywa trudniej — model rozpozna „kotlet panierowany", ale dokładna kuchnia regionalna może być błędem.

Kalorka pod maską — bez ukrywania

Powiemy konkretnie, co używamy.

Główny model do analizy posiłku: Anthropic Claude Sonnet 4.6 (multimodal vision). To jeden z najmocniejszych modeli vision dostępnych w 2026 dla developerów. Dostajesz od nas listę składników z gramaturą, kalorie, makroskładniki.

Model do podpowiedzi quick-look: Anthropic Claude Haiku 4.5 — szybszy, mniejszy, używany do krótkich „rymowanek" podczas analizowania zdjęcia (te zdania w bąbelkach na ekranie ładowania).

Czas pełnej analizy: typowo 7-12 sekund od kliknięcia po wynik.

Polityka treningowa: według warunków Anthropic na 2025 rok, twoje zdjęcia nie są używane do trenowania modeli AI. To kwestia kontraktowa, nie deklaracja PR-owa. (Jeżeli kiedyś coś się zmieni w polityce dostawcy — będziesz wiedział, bo zmienimy politykę prywatności z 14-dniowym wyprzedzeniem.)

To nie jest pełna lista technologii pod maską — jest jeszcze kompresja zdjęć client-side, walidacja, fallbacki na curated content gdy AI ma „gorszą minutę", cache, anti-abuse rate limit. Ale to są szczegóły inżynierskie. Esencja: jedno zdjęcie, jedno wywołanie modelu vision, jedna odpowiedź.

Co AI umie świetnie

Po roku zbierania feedbacku od użytkowników kilku tysięcy skanów dziennie, wiemy gdzie modele radzą sobie dobrze:

Identyfikacja głównego dania. Sałatka, kanapka, makaron, mięso, ryba, owsianka, smoothie bowl, deser — model trafia w >90% przypadków przy zwykłym oświetleniu.
Główne składniki widoczne na talerzu. Pomidory, ogórek, ser, kurczak, awokado, ryż, kasza, ziemniaki — rozpoznawane niemal zawsze. Im bardziej standardowo wyglądają, tym lepiej.
Oszacowanie objętości na podstawie perspektywy. Modele całkiem trafnie ocalają porcję małą, średnią i dużą. Nie potrafią precyzyjnego pomiaru w gramach, ale wiedzą, czy to filiżanka makaronu czy talerz.
Rozróżnienie podobnych potraw. Bigos vs. gulasz, ryż vs. kasza pęczak, mozzarella vs. ser feta — większość zwykłych konfuzji jest rozwiązana poprawnie.

Co AI łapie słabiej — uczciwie

A teraz prawdziwa wartość artykułu, której nigdy nie zobaczysz w reklamie:

Sosy ukryte. Sałatka „kobieca i lekka" może mieć 150 ml majonezu. Z zewnątrz nie widać. Model szacuje na sucho — i w 80% przypadków pomyli się o 200-400 kcal w dół.
Niespotykane lokalne potrawy. Zupa „rosół z lanymi kluskami od babci", kaszanka, pierogi ze szpinakiem i serem feta od ciotki Krysi — model rozpozna „polską potrawę", ale dokładność kaloryczna może być daleko.
Gramatura przy nietypowej perspektywie. Zdjęcie z góry, pod kątem 90 stopni? Niezawodne. Zdjęcie z boku, pod 30 stopniami, gdzie kawałek talerza znika za stosem pierogów? Mniej niezawodne. Pojedyncze odchylenia mogą być rzędu 30%.
Zdjęcia w słabym świetle. Restauracja przy świecach, kolacja w półmroku — AI nadal robi swoje, ale margines błędu rośnie. Lepsze światło = lepszy wynik.
Suche składniki podane jako sucha mieszanka. Granola, mieszanki orzechów, mieszanki ziaren — AI czasem traktuje to jako „granola standardowa 470 kcal/100g", podczas gdy twoja domowa wersja może mieć 320.

Typowy margines błędu w realnych zastosowaniach: ±15-30%. Nie kłamiemy. Tak jest.

Dlaczego to nadal wystarczy

Pytanie, które padło wewnętrznie w pierwszym tygodniu istnienia Kalorki: „skoro AI myli się o 25%, to czy to ma sens?".

Tak. Z dwóch powodów.

Po pierwsze — trendy są ważniejsze niż dokładność jednorazowa. Jeśli systematycznie raportujesz, że twoje obiady „typu A" mają 700 kcal, a obiady „typu B" mają 1100, to nawet jeśli oba są w rzeczywistości +20%, różnica między nimi jest realna. AI łapie wzorce. A wzorce są tym, co cię zmienia w długim terminie.

Po drugie — możesz edytować. Każdy wynik Kalorki ma przycisk „edytuj". Klikasz, zmieniasz gramaturę, podmieniasz składnik, usuwasz jeden i dodajesz drugi. Aplikacja zapisuje wersję edytowaną. To znaczy: dopóki ty masz lepszą informację niż AI (i czasem masz — bo widziałeś jak gotujesz), możesz dorzucić poprawkę w 5 sekund.

To jest fundamentalnie inna logika niż „zaufaj AI ślepo". To jest: AI robi 80% pracy, ty robisz 20% korekty kiedy jest potrzeba. Razem dochodzicie do dobrego wyniku w czasie znacznie krótszym niż solo z tabelkami.

Trzy podejścia do liczenia kalorii — generic comparison

Każde działa, każde ma swoje wady. Bez wymieniania marek:

Manualna baza danych. Wpisujesz nazwę produktu, wybierasz wariant z bazy, podajesz gramaturę. Plusy: kontrola, dokładność jeśli baza jest dobra. Minusy: 2-3 minuty na posiłek, średnia friction wysoka, baza nigdy nie ma wszystkiego.

Skan kodu kreskowego. Pokazujesz kamerą kod produktu z opakowania. Plusy: szybkość dla pakowanych produktów, dokładność producenta. Minusy: działa tylko dla produktów z kodem, bezużyteczne dla restauracji, dla potraw gotowanych, dla rzeczy ważonych na wagę.

AI vision ze zdjęcia. Pokazujesz kamerą cały talerz. Plusy: pasuje do każdej sytuacji (kuchnia, restauracja, kawiarnia, dom mamy), 20-sekundowy czas. Minusy: margines błędu ±15-30%, trudne dania mogą wymagać edycji.

Trzy filary, trzy zastosowania. Nie ma jednego „najlepszego" — jest „najlepsze dla mojego stylu". Jeśli jesz dużo restauracyjnie? AI vision wygrywa. Jeśli kupujesz wyłącznie produkty pakowane Lidla? Barcode + manualna baza ma więcej sensu. Jeśli wszystko gotujesz w domu od podstaw? Manualna baza z gramaturą będzie dokładniejsza.

Decyzja jest twoja, narzędzie jest jedno

Kalorka to nasza propozycja na kategorię „AI vision z talerza, polski, freemium, PWA bez instalacji". Działa w przeglądarce, instaluje się na telefon (jeśli chcesz) jako ikonka, pierwszych 10 skanów dostajesz darmo bez konta.

Wypróbuj na własnym zdjęciu. Najpierw zrób fotkę. Spróbuj na czymś trudnym — np. pełnym talerzu z trzema składnikami i sosem. Zobacz wynik. Edytuj jeśli pomyliło. To jest cały test.

Co dalej

Jeśli zastanawiałeś się, dlaczego liczenie kalorii w klasycznym formacie tak rzadko się przyjmuje — przeczytaj Dlaczego liczenie kalorii nie działa. Tłumaczymy tam mechaniki psychologiczne i policzone godziny rocznie.

Jeśli porównujesz różne narzędzia i kategorie aplikacji — Jak wybrać aplikację do liczenia kalorii ma 7 kryteriów świadomego wyboru.

I jeśli chcesz zobaczyć, jak Kalorka pracuje na twoim talerzu — startujesz w jeden klik.

Bo aplikacja, której nie da się oszukać dokładnością, jest lepsza niż ta, która wymaga oszukiwania.