Back to Blog

Is het tijdperk van gesubsidieerde AI voorbij?

Read this post in English

Is het tijdperk van gesubsidieerde AI voorbij?

Wat de prijszetting van Gemini 3.5 Flash ons vertelt over de economische realiteit achter frontier AI.


Gisteren, op Google I/O 2026, lanceerde Google Gemini 3.5 Flash. De marketing focuste op "frontier intelligence with action" — een model dat coding, agentic workflows en multimodale taken aankan op het niveau van veel grotere flagship modellen. De benchmarks ogen sterk: 76.2% op Terminal-Bench 2.1, 83.6% op MCP Atlas, en in de top-right quadrant van de Artificial Analysis index.

Maar de meest interessante storyline zit niet in de benchmarks. Ze zit in een rij cijfers die Google opvallend genoeg niet in hun announcement post heeft opgenomen.

De cijfers

Prijs per miljoen tokens (input / output):

Model Input Output
Gemini 2.5 Flash $0.30 $2.50
Gemini 3.0 Flash (preview) $0.50 $3.00
Gemini 3.5 Flash $1.50 $9.00

Dat is een 3x prijsverhoging op output tussen twee opeenvolgende generaties van hetzelfde tier. Ter context:

  • Gemini 2.5 Pro kostte $1.25 / $10 — 3.5 Flash zit dus boven de input-prijs van het vorige flagship model.
  • Claude Sonnet zit op $3 / $15 voor de huidige generatie. Gemini 3.5 Flash zit op $9 output. Het verschil tussen "Flash" en "Sonnet" — historisch een verschil tussen budget- en mid-tier — is geslonken tot 1.6x.
  • Gemini 3.1 Flash Lite zit op $0.25 / $1.50. 3.5 Flash is daarvan 6x duurder.

De Flash-positionering, die jarenlang stond voor "snel en goedkoop", is structureel verschoven. Een HN commenter vatte het pijnlijk samen: "I think flash just means 'fast' now."

De échte kost loopt nog verder uit

De kale token-prijs is één ding. De werkelijke kost per workload is iets anders. Gemini 3.5 Flash heeft thinking-tokens ingebouwd en verbruikt meetbaar méér tokens per taak dan zijn voorgangers.

Artificial Analysis publiceerde de kost om hun volledige evaluatiesuite te draaien op verschillende modellen. De getallen zijn brutaal:

Model Intelligence score Totale kost eval
Gemini 2.5 Flash 27 $172 (1.0x)
Gemini 3.0 Flash 46 $278 (1.6x)
Gemini 2.5 Pro 35 $649 (3.8x)
Gemini 3.5 Flash 55 $1,552 (9.0x)

Negen keer duurder dan 2.5 Flash om dezelfde benchmarks te draaien. 5.6x duurder dan 3.0 Flash, dat amper een half jaar oud is. En het meest opmerkelijke detail: 3.5 Flash kostte 74% méér dan Gemini 3.1 Pro om de hele suite te draaien — terwijl het op sommige benchmarks lager scoort.

Je betaalt dus een Pro-prijs (of meer) voor wat in naam nog steeds een Flash-model is.

Waarom gebeurt dit?

Er circuleren ongeveer vier verklaringen, die elkaar niet uitsluiten:

1. Generative AI is gewoon niet winstgevend aan oude prijzen

De simpelste verklaring is ook de meest oncomfortabele: frontier AI werd jarenlang onder kostprijs aangeboden om marktaandeel te veroveren. Capex-investeringen in datacenters lopen voor de hele sector samen in de honderden miljarden. Op een bepaald moment moeten die uitgaven terug door de P&L. We hebben dat patroon eerder gezien — Uber, AWS in de vroege jaren, streaming diensten — en de eindfase is altijd een prijscorrectie nadat de markt is "geëduceerd".

Een veelgeciteerde reactie op Hacker News: "Gen AI is unprofitable, especially at the insanely cheap rates they've been offering to get people in the door. Expect more increases in the future."

2. Bewuste squeeze na lock-in

Een tweede lezing: providers wachten tot ontwikkelaars productie-workloads hebben gebouwd op hun API, en draaien dan de prijzen op. Het is een klassieke platform-strategie. Goedkope toegang om de gewoonten te vormen, vervolgens een herpositionering wanneer de switching costs voldoende hoog zijn.

Wie zijn agentic toepassingen gebouwd heeft rond Gemini 2.5 Flash heeft nu drie opties: betalen, herarchitecten, of teruggrijpen naar het inferieure Flash-Lite-tier. Niet één van die opties is pijnloos.

3. Flash is geen Flash meer — een positioneringsshift

Een charitatievere interpretatie: 3.5 Flash is in capaciteit dichter bij een Pro-model dan bij een traditionele Flash. Google heeft de naming gewoon niet aangepast (zoals 3.0 Flash dat nooit voorbij preview is geraakt — opvallend detail). Het Flash-Lite-tier zou dan de plek innemen die "Flash" historisch had.

Mogelijk. Maar dan is dit op zijn minst een naming failure die ontwikkelaars in de problemen brengt. En het verklaart niet de discrepantie tussen wat 3.5 Flash kost om te draaien en wat het oplevert op benchmarks zoals MiMo-V2.5-Pro, waar het ongeveer dezelfde score haalt voor 3x de prijs.

4. Het is een agentic-only verhaal

Google positioneert 3.5 Flash expliciet voor long-horizon agentic workloads — gekoppeld aan hun Antigravity harness en subagent-architectuur. De use cases die ze tonen (Shopify forecasting, Macquarie onboarding-automatisering, Salesforce Agentforce) zijn allemaal enterprise workflows waar de waarde per voltooide taak ruim de token-kost overstijgt.

Voor die markt is $9/M output billable. Voor de developer die een chatbot of een retrieval-laag bouwt, is het dat niet. Mogelijk accepteert Google bewust dat ze het lange-staart-segment opgeven aan goedkopere modellen, om zich te concentreren op enterprise agents waar marges hoger liggen.

Het tegenverhaal

Voor de balans: Google's eigen positionering is dat dit model de Pareto-frontier verschuift. Arena.ai noteert dat acht GoogleDeepMind modellen de Text Arena Pareto curve domineren. Met andere woorden: voor de intelligentie die je krijgt, is dit nog steeds competitief.

En er zit waarheid in. 3.5 Flash is twee tot vier keer sneller dan andere frontier modellen op output tokens per seconde. Voor latency-gevoelige toepassingen blijft die snelheidswinst reëel. Bovendien: Gemini's caching-discount (10% van input-prijs) blijft agressief voor wie agentic workloads draait waar 90-95% van de cost in cached prefix zit.

Maar het verandert niet de hoofdvraag. De absolute kost is significant gestegen, niet gedaald. En dat doorbreekt een patroon van bijna drie jaar waarin elke generatie meer intelligentie per dollar bracht.

Het bredere patroon

Dit is geen geïsoleerd Google-fenomeen. Als je de hele markt bekijkt:

  • Claude Opus 4.7 kost $5/$25. Dat tier is in eigenlijk niet goedkoper geworden over generaties.
  • GPT-5.5 xhigh-modes verbruiken aanzienlijk meer tokens dan voorgangers.
  • Anthropic's Mythos is bewust nog niet publiek beschikbaar gemaakt — naar verluidt omdat de compute-vereisten te hoog zijn voor een levensvatbaar prijsmodel.

Het gemeenschappelijk patroon: capability per token stijgt nog steeds, maar total cost of ownership per use case stijgt mee. Dat is een fundamenteel andere economie dan die we tussen 2023 en 2025 hebben gekend, waar nieuwe generaties bijna axiomatisch goedkoper waren bij gelijkblijvende of stijgende capaciteit.

De koers is gedraaid.

Wat dit betekent als je iets bouwt

Voor wie productie-systemen draait op LLM APIs, zijn er een paar concrete implicaties:

1. Provider abstraction is geen luxe meer, het is een verzekering. Wie hard gekoppeld is aan één API neemt nu het volledige risico van ongereguleerde prijsverhogingen. Een laag zoals OpenRouter, LiteLLM of een eigen abstractie laat je modellen wisselen zonder applicatie-wijzigingen. Dit is precies waarom BYOK (Bring Your Own Key) modellen aan populariteit winnen — de eindgebruiker draagt het provider-risico, niet de bouwer.

2. Token-efficiëntie wordt opnieuw een KPI. Tussen 2024 en begin 2026 was prompt-engineering vooral over kwaliteit, niet over zuinigheid. Met deze prijsbewegingen wordt elke onnodige output-token weer geld. Caching, prompt compression, en het bewust onder-prompten van modellen worden vaardigheden die financieel verschil maken.

3. Lokale en open-weight modellen zijn een serieuze hedge. Qwen 3.6, DeepSeek v4, en Gemma 4 hebben de drempel voor "goed genoeg voor productie" significant verlaagd. Een hybride architectuur — lokale modellen voor 80% van de queries, frontier modellen alleen wanneer je het nodig hebt — was eerder een academisch ideaal. Nu is het een business case.

4. Het Flash-Lite-tier verdient een tweede blik. Wie geprotest heeft tegen 3.5 Flash's prijs is misschien beter af bij 3.1 Flash Lite ($0.25/$1.50). De capaciteitskloof is reëel, maar 6x prijsverschil rechtvaardigt vaak een herwerking van de prompt-pipeline.

Eenmalige beweging of structurele shift?

Mijn intuïtie: dit is geen eenmalig accident. Ik vermoed dat 2026 het jaar wordt waarin AI-pricing normaliseert richting werkelijke kostprijs plus marge, en dat we de jaren 2023-2025 retrospectief gaan zien als de "subsidie-fase".

De drie redenen waarom ik dat denk:

  1. Geen enkele provider kan de huidige capex blijven absorberen zonder een pad naar break-even per inference-call. NVIDIA verdient. De cloud providers verdienen. De model labs niet — niet aan de huidige token-prijzen.
  2. Er is voor het eerst een geloofwaardig alternatief in de vorm van open-weight modellen die productie-niveau halen. Dat verlaagt de strategische noodzaak voor providers om beneden kostprijs te leveren — wie weg wil kan grotendeels weg.
  3. De agentic workloads die de industrie aanstuurt verbruiken token-volumes die orde van grootte hoger liggen dan chat-volumes. Het oude prijsmodel was geijkt op chat. Het nieuwe wordt geijkt op autonomous loops.

Voor wie bouwt: ga ervan uit dat de marges die je vandaag hebt op je AI-stack volgend jaar dunner zijn. Plan daarop.


Wat denken jullie? Eenmalige uitschieter of het begin van een nieuwe prijsrealiteit? Ik ben benieuwd naar reacties — vooral van mensen die productie-workloads draaien en de impact concreet voelen.

Bronnen: - Google's announcement post - Hacker News discussie - Artificial Analysis — Gemini 3.5 Flash benchmarks