Heart for people
Mind for tech

Wat als de tokens te duur worden? Open AI-modellen als strategische keuze

AI huren is comfortabel, tot je product succesvol wordt. Zeven vragen voor productmanagers

Chris Lukassen

AI Inzichten

whiteboard showing graph of cost of self hosting versus cost of ai api calls

Written by

Chris Lukassen
Head of Product

Zolang je klein bent, voelt de rekening voor AI verwaarloosbaar. Een paar tientjes, een paar honderd euro per maand: ruis op de begroting. Maar als productmanager hoor je niet de pilot door te rekenen. Je hoort het scenario door te rekenen waarin het product succesvol is. En precies daar wordt het interessant: wat gebeurt er met je product op het moment dat het écht aanslaat en de tokens te duur beginnen te worden?

Drie krachten op je product zodra er AI in zit

Voor de meeste producten begint AI op dezelfde manier: je roept een API aan, je betaalt per token, je data gaat naar de provider en komt terug met een antwoord. Comfortabel, snel te bouwen, niets om naar om te kijken. Je huurt intelligentie in. Maar zodra die intelligentie onderdeel wordt van je product in plaats van een experiment ernaast, komen er drie krachten op je af die je vroeger niet had.

De tokens worden duurder. Niet per se per stuk, maar in totaal. Kosten per token voelen verwaarloosbaar in een prototype en worden je grootste variabele kostenpost zodra je succesvol bent. Het venijn zit in de schaal: hoe beter je product werkt, hoe meer het gebruikt wordt, hoe harder de rekening meegroeit. En je hebt geen enkele grip op de prijszetting. Je betaalt wat de leverancier vraagt, wanneer hij het vraagt.

Lock-in. Bij een gesloten API zit je vast aan de prijzen, de roadmap én de beschikbaarheid van één partij. Een model dat vandaag de kern van je gebruikerservaring vormt, kan morgen worden uitgefaseerd, verdubbeld in prijs, of stilletjes bijgewerkt zodat je zorgvuldig geteste output ineens anders is. Hoe dieper AI in je product zit, hoe groter de afhankelijkheid en hoe duurder het wordt om er ooit nog uit te stappen.

Soevereiniteit. Voor veel Nederlandse en Europese organisaties (banken, zorg, overheid) is dit geen detail maar de hoofdvraag. Waar mag je data heen? Wie traint er op mee? Onder welk rechtsgebied valt het? AVG, sectorregels en datasoevereiniteit bepalen vaak al welke optie überhaupt is toegestaan, nog vóórdat je naar kosten of kwaliteit kijkt.

Deze drie staan niet los van elkaar. Ze wijzen alle drie dezelfde kant op: hoe serieuzer AI onderdeel wordt van je product, hoe meer je grip wilt op iets wat je nu inhuurt.

Zelf een open-weight model draaien: wat betekent controle echt?

Er is een alternatief, en het is volwassen geworden. In plaats van een API aan te roepen, download je een open-weight model (Google's Gemma is daar het bekendste voorbeeld van) en draai je het op je eigen hardware of op infrastructuur die je rechtstreeks inhuurt. Je roept nooit een API bij een derde aan. De marginale kosten per token zakken naar de prijs van de stroom en hardware: op schaal soms tien tot honderd keer goedkoper. Je fine-tunet op je eigen data, je bepaalt zelf wanneer je upgradet, en als de leverancier morgen verdwijnt, draait jouw product gewoon door.

Op papier lost dat alle drie de krachten in één keer op. Tokens? Geen tokenrekening meer. Lock-in? Je bezit het modelbestand. Soevereiniteit? Je data komt je eigen omgeving niet uit. Klinkt te mooi. En dat is precies het moment waarop je als productmanager moet doorvragen: wat betekent "controle" hier eigenlijk?

Begin met een ongemakkelijke vraag: waarom geeft Google een model dat honderden miljoenen kostte om te bouwen, helemaal gratis weg? Niet uit liefdadigheid. Google verdient niet aan het model, Google verdient aan de infrastructuur eronder. Het model is gratis, maar zodra je er iets serieus mee wilt (fine-tunen op je eigen data, het serveren aan duizenden gebruikers, een agent erop bouwen) heb je infrastructuur nodig. En Gemma is netjes ingebed in Google's eigen cloud, op Google's eigen chips, met Google's eigen deployment-tooling. Het gratis model is de trechter; de cloudcontracten zijn de business.

Daar zit de angel. "Gratis" en "open" betekenen niet automatisch "in controle". Als je Gemma draait op de cloud en met de tooling van de partij die het model uitbracht, heb je je tokenrekening misschien ingeruild voor een infrastructuurrekening bij diezelfde partij en is je lock-in van vorm veranderd, niet verdwenen. Echte controle betekent dat je ook de rails bezit, of in elk geval vrij kunt kiezen waar ze staan.

En controle heeft zijn eigen prijs. Een model zelf draaien is geen vinkje maar een competentie. Je hebt GPU's nodig, of je huurt ze in. Je hebt mensen nodig die het model serveren, monitoren, updaten en bij de les houden. Je ruilt een voorspelbare maandrekening in voor operationele complexiteit en een team dat die complexiteit aankan. Voor een bedrijf dat 2 miljoen per maand aan API-calls uitgeeft, kantelt die rekensom moeiteloos. Voor een product dat een paar honderd euro per maand verstookt, vrijwel nooit. Dan is gemak meer waard dan controle.

Het landschap van open modellen: van DeepSeek tot Mistral

"Open" is geen knop maar een spectrum, en de verschillen ertussen zijn precies de verschillen die voor een product uitmaken.

De Chinese labs (DeepSeek, Alibaba's Qwen en anderen) hebben het afgelopen jaar open modellen uitgebracht die in veel taken de gesloten top benaderen, vaak onder zeer permissieve voorwaarden (DeepSeek's R1 staat zelfs onder een MIT-licentie) en spotgoedkoop te draaien. Puur op prijs en prestatie is dat verleidelijk. Maar hier komt je soevereiniteitsvraag keihard terug. Zelfs als je het model zelf draait en je data je omgeving niet verlaat, blijft de vraag of een Chinees model politiek, contractueel en qua toeleveringsketen acceptabel is voor jouw klanten en je toezichthouder. Voor een consumentenapp misschien geen punt (Airbnb draait op Qwen); voor een bank, ziekenhuis of overheidsdienst vaak een gesprek met compliance voordat er één regel code geschreven is.

Mistral, het Europese alternatief, draait die afweging om. Voor een organisatie die op datasoevereiniteit let, is een Europees model een streepje voor. Maar let op de licentie: de kleinere modellen van Mistral zijn permissief en commercieel vrij te gebruiken, terwijl je voor de zwaardere modellen bij productiegebruik een commerciële licentie verschuldigd bent. "Open gewichten" betekent dus niet automatisch "gratis te gebruiken in je product". Je mag het model misschien downloaden en bestuderen, maar het ín je product verschepen is een aparte, en betaalde, afspraak. Ze komen hier over spreken bij op onze volgende AI Summit, waar we enorm naar uitkijken!

Het is geen nieuw aandachtspunt, maar geschiedenis herhaalt zich. De licentie is geen juridisch nazetje dat je aan het eind even laat checken. Het is een productbeslissing. Hij bepaalt of je het model commercieel mag inzetten, of je het mag aanpassen, of je het op je eigen infrastructuur mag draaien, en welke rekening je over twee jaar krijgt als je product groot is. Behandel de licentie als een feature met kosten en risico's, niet als kleine lettertjes.

Kleine gespecialiseerde modellen: waarom groter niet beter is

Gemma en de compacte varianten van de Chinese modellen zijn kleiner dan de absolute frontier: de gesloten reuzen van OpenAI, Anthropic en Google's eigen Gemini. Dat klinkt als een tekortkoming. Het is er geen.

Want waar betaal je eigenlijk voor bij zo'n reusachtig, generalistisch model? Voor een onvoorstelbare breedte. Het kent Shakespeare, Python, het Romeinse Rijk, breipatronen en zo'n beetje elke Lego-set die ooit is uitgebracht. Indrukwekkend, en voor de meeste producten volstrekt overbodig. Je betaalt rekenkracht, geld en latentie voor kennis die jouw product nooit aanspreekt.

Stel: je product draait in een industriële omgeving en moet defecten in lasnaden opsporen. Wat moet je dan met een model dat ook breipatronen en elke Lego-set uit zijn hoofd kent? Niets. Je hebt geen breedte nodig, je hebt diepte nodig in precies één ding. Een kleiner model, gespecialiseerd en fijngetraind op jouw domein, verslaat op die ene taak moeiteloos de logge generalist. Het is sneller, het is een fractie van de kosten, het past op bescheiden hardware, en het kan draaien op de rand van je netwerk, naast de lasrobot, in plaats van in een datacenter aan de andere kant van de wereld.

En daar ligt volgens mij de toekomst. Niet bij steeds grotere generalisten, maar bij specialistische modellen die één taak uitmuntend doen. De gesloten frontier blijft waardevol voor verkennen, prototypen en taken die echt brede redenatie vragen. Maar in productie, waar kosten, snelheid, controle en soevereiniteit tellen, wint het model dat precies genoeg weet en geen byte meer. En een klein gespecialiseerd model dat je zelf bezit, ontkracht meteen alle drie de krachten van het begin: het drukt de tokenrekening, het verlost je van lock-in, en het laat je data thuis.

Zeven vragen voor de juiste AI-modelkeuze

Hier zit het echte werk. Gebruik deze als manier om de juiste discussie af te dwingen met je team en je stakeholders vóórdat AI vastgebakken zit in je product en de keuze al impliciet voor je gemaakt is.

1. Op welke schaal draaien we straks, en wat kost dat dan? Reken niet de pilot door, maar het successcenario. Hoeveel verzoeken per dag bij tienduizend gebruikers? Bij honderdduizend? Zet de tokenrekening van dat scenario naast de kosten van zelf draaien: hardware, infrastructuur en de mensen die het beheren. Het punt waarop die twee elkaar kruisen is geen technisch detail, het is je break-even, en het bepaalt of "huren" een tijdelijke fase is of je eindbestemming.

2. Hoeveel afhankelijkheid accepteren we, en hebben we dat bewust gekozen? Lock-in is geen probleem als het een keuze is. Het wordt een probleem als het een verrassing achteraf is. Stel de vraag hardop: wat gebeurt er met ons product als deze leverancier morgen zijn prijs verdubbelt, een model uitfaseert, of omvalt? En vergeet de verborgen variant niet: ook een gratis open model kan je via de infrastructuur of de licentie eronder terugleiden naar afhankelijkheid.

3. Waar mag onze data heen en wat eist onze sector? Begin hier als je in een gereguleerde omgeving zit, want deze vraag kan de andere overrulen. Soms is de goedkoopste of beste optie simpelweg niet toegestaan, of komt een Chinees model je compliance-afdeling niet voorbij hoe sterk het ook is. Breng in kaart welke optie je überhaupt mág gebruiken voordat je optimaliseert op prijs of kwaliteit. Soevereiniteit is geen feature die je later toevoegt; het is een randvoorwaarde die je architectuur vormt.

4. Mogen we dit model in productie gebruiken en tegen welke prijs? Lees de licentie als een productbeslissing. Mag je het commercieel inzetten? Mag je het aanpassen en zelf hosten? Is het permissief (zoals Apache 2.0 of MIT), of ben je voor productiegebruik een commerciële licentie verschuldigd, zoals bij de zwaardere Mistral-modellen? "Open" en "gratis te gebruiken" zijn niet hetzelfde, en dat verschil staat zomaar op je begroting over twee jaar.

5. Hebben we de competentie om controle te dragen? Bezit zonder bekwaamheid is geen controle, het is een nieuw risico. Kunnen we een model serveren, monitoren, fine-tunen en updaten? En wie doet dat als diegene morgen vertrekt? Wees eerlijk over wat je team aankan. Het is volstrekt legitiem om bewust voor het gemak van een API te kiezen omdat je je energie ergens anders op wilt zetten. Wat niet legitiem is, is in controle dénken te zijn terwijl je de operationele last onderschat.

6. Wat is het kleinste model dat onze taak uitstekend doet? Draai de gewoonte om. In plaats van te beginnen bij het krachtigste model en je af te vragen of het betaalbaar is, begin je bij je taak en zoek je het kleinste, meest gespecialiseerde model dat hem aankan. Een fijngetraind compact model dat één ding uitmuntend doet, is in productie bijna altijd goedkoper, sneller en beter beheersbaar dan een generalist die ook nog duizend dingen kan die jij nooit gebruikt.

7. Is dit model onze differentiatie of een nutsvoorziening? De vraag die alle andere kleurt. Als AI een feature is (een slimme zoekfunctie, een samenvatting, een suggestie), koop je een commodity in en zit je voordeel ergens anders; dan wil je er zo min mogelijk omkijken naar hebben. Maar als het model de kern van je propositie is, dan koop je je eigen onderscheidend vermogen in bij een partij die het morgen aan je concurrent levert tegen dezelfde prijs. Differentiatie wil je bezitten en beheersen. Een nutsvoorziening wil je goedkoop en zonder gedoe inhuren.

De kern

De vraag "wat als de tokens te duur worden" is essentieel, want hij dwingt je vooruit te kijken naar het moment van succes in plaats van naar de comfortabele pilot van vandaag. Er is geen universeel goed antwoord, huren is voor het ene product de verstandige keuze en voor het andere een tikkende kostenpost. Maar het antwoord begint nooit bij de vraag welk model het grootst of het krachtigst is.

Het begint bij de vraag wat AI eigenlijk dóét in jouw product, welk probleem het oplost en hoe smal die taak in werkelijkheid is. Behandel je het als een nutsvoorziening die je inhuurt, of als de kern die je bezit en beheerst? Heb je de breedte van een generalist nodig, of de diepte van een specialist?

De fans van Bruce Lee herkennen vast de inspiratie in de volgende quote: de winnende producten van de komende jaren draaien niet op het grootste model, maar op het kleinste model dat hun ene taak uitmuntend doet: bezeten, beheerst, en precies genoeg.