De donkere kant van LLM’s

Chatbots bestaan al heel lang. Ze waren altijd geprogrammeerd en daardoor was het onmogelijk om er een echt gesprek mee te voeren. Met de komst van Large Language Models (LLM’s) – de techniek achter ChatGPT – is ons beeld van chatbots enorm veranderd en hebben ze plotseling een grote rol in de samenleving ingenomen. Een mooie vernieuwing, maar het geeft ook grote zorgen.

Zorgen om data en privacy

Een belangrijke zorg is de veiligheid en privacy van data. De ontwikkelaars van de grote LLM’s beweren natuurlijk stellig dat ze veilig met je data omgaan. Garanties heb je uiteraard niet, en de voorwaarden die zij nu hanteren kunnen in de toekomst veranderen. Een recente poll van Salves laat zien dat er nog weinig vertrouwen is in deze beloftes.

Uit de coulissen en in de spotlights: de knallende opkomst van AI 1Sander Mol 

Niet-toegestane data en bias

Een andere bedenking is de mogelijkheid dat deze LLM’s zijn getraind met gebruik van niet-toegestane data. Dit creëert een grijs gebied in een landschap waar wetgeving nog in ontwikkeling is. Daarnaast is er bezorgdheid over bias in de antwoorden van chatbots. Deze kan onbewust ontstaan door de data gedreven aard van deze modellen, of bewust door censuur en sturing. Bovendien kunnen deze modellen soms ronduit foute antwoorden geven.

Volop ideeën om vooruit te kijken

Laten we al deze bedenkingen één voor één adresseren, en kijken naar oplossingen. Want net als zorgen zijn die er genoeg. Als eerste de afhankelijkheid van de aanbieders van chatbots via het internet, zoals ChatGPT en Bard, en de vereiste om je data met hen te delen. Dit kan worden opgelost met het gebruiken van een lokaal taalmodel. Er zijn voldoende modellen beschikbaar, ook open source. Met wat eigen rekenkracht kun je prima een LLM draaien, op een eigen server of een cloudserver.

Kleiner is fijner

Het helpt dan wel als je een enigszins klein model draait, maar dat is juist het tweede nuttige idee. De grote modellen hebben enorm veel kennis in zich. Over geschiedenis, wetenschap, literatuur, enzovoort. Terwijl voor sommige use cases een veel kleiner model voldoende is. Bijvoorbeeld als je en tekst wilt samenvatten. Dan is kennis van de Nederlandse of Engelse taal voldoende.

Zelf data aanleveren

En zo komen we bij het laatste idee uit; het gebruiken van zelf aangeleverde data. Als je zelf een document aanlevert om samen te vatten, dan heeft een taalmodel veel minder speelruimte om eigen voorkeuren en vooroordelen in te brengen. Ook kun je de gegevens ophalen van internet. De kans op bevooroordeling – ofwel bias – wordt daardoor wel weer wat groter, maar de bronnen zijn in ieder geval beter traceerbaar dan dat je alleen het voorgetrainde model gebruikt. En het is ook nog eens veel meer actueel.

Salves stapt de toekomst in

Er zijn dus heel wat zorgen over privacy en bias, maar ook voldoende ideeën om dit op te lossen. En heel veel klanten en consultants die hier enorm mee geholpen zouden zijn! Dat was voor ons de aanleiding om aan de slag te gaan met het ontwikkelen van een eigen chatbot. Volledig in beheer bij Salves, in een veilige omgeving, op basis van een klein taalmodel. Helemaal geschikt om aangeleverde teksten te bewerken tot requirements, testgevallen, enzovoort. We gebruiken het eerst intern, zodat we #zekerweten dat het betrouwbaar is. Daarna gaan we in overleg met klanten om te kijken of deze unieke tool hen ook kan helpen.

Groeimogelijkheden

Het is een eenvoudig initiatief met heel veel groeimogelijkheden. De consultants van Salves doen ervaringen op, delen deze met elkaar en komen tot best practices en misschien zelfs een zelfgetrainde laag bovenop het taalmodel, om tot de beste toepassing bij klanten te komen. Blijf ons dus volgen, er staat heel veel moois te gebeuren!