
Woensdag introduceerde Google PaLM 2, een familie van basistaalmodellen die vergelijkbaar is met OpenAI’s GPT-4. Tijdens het Google I/O-evenement in Mountain View, Californië, onthulde Google dat het al PaLM 2 gebruikt om 25 producten aan te drijven, waaronder zijn AI-chatassistent Bard.
Als een familie van grote taalmodellen (LLM), wordt PaLM 2 getraind op een enorme hoeveelheid gegevens en doet het volgende woordvoorspelling, die de meest waarschijnlijke tekst uitvoert na directe menselijke invoer. PaLM staat voor “Pathways Language Model” en “Pathways” is een machine learning-techniek gemaakt door Google. PaLM 2 volgt de oorspronkelijke PaLM, die Google in april 2022 aankondigde.
Volgens Google ondersteunt PaLM 2 meer dan 100 talen en kan het “redeneren”, code genereren en vertalen in meerdere talen. Tijdens zijn Google I/O-keynote in 2023 zei Sundar Pichai, CEO van Google, dat de PaLM 2 in vier maten verkrijgbaar is: Gecko, Otter, Bison, Unicorn. Gecko is de kleinste en zou op een mobiel apparaat kunnen draaien. Naast Bard zit PaLM 2 achter de AI-features in Docs, Sheets en Slides.

Dit is allemaal goed en wel, maar hoe verhoudt PaLM 2 zich tot GPT-4? In PalM 2 technisch rapport, PaLM 2 opduikt versla de GPT-4 op sommige wiskunde-, vertaal- en redeneertaken. Maar de realiteit komt mogelijk niet overeen met de benchmarks van Google. In een ruwe evaluatie van Bard’s versie van PaLM 2 door Ethan Mollick, een Wharton-professor die vaak over kunstmatige intelligentie schrijft, vindt Mollick dat PaLM 2 slechter lijkt te presteren dan GPT-4 en Bing op verschillende informele taaltesten, die gedetailleerd in een Twitter-thread.
Tot voor kort was de PaLM-familie van taalmodellen een intern product van Google Research zonder consumentenblootstelling, maar Google begon in maart beperkte API-toegang aan te bieden. De eerste PalM viel echter op door zijn enorme omvang: 540 miljard parameters. Parameters zijn numerieke variabelen die dienen als de “kennis” van het model, waardoor het voorspellingen kan doen en tekst kan genereren op basis van de invoer die het ontvangt.

Meer parameters betekenen ruwweg meer complexiteit, maar er is geen garantie dat ze effectief zullen worden gebruikt. Ter vergelijking: OpenAI’s GPT-3 (vanaf 2020) heeft 175 miljard parameters. OpenAI heeft nooit het aantal parameters in GPT-4 onthuld.
Dit leidt dus tot de grote vraag: hoe “groot” is PaLM 2 in termen van het aantal parameters? Google Het niet waardwat sommigen heeft teleurgesteld branche-experts die vaak vechten voor meer transparantie in wat AI-modellen doen.
Dit is niet het enige kenmerk van PaLM 2 waarover Google zwijgt. Het bedrijf zegt dat PaLM 2 is getraind op “een diverse reeks bronnen: webdocumenten, boeken, code, wiskunde en gespreksgegevens”, maar gaat niet in op details over wat die gegevens precies zijn.
Net als bij andere datasets van grote taalmodellen, bevat de PaLM 2-dataset waarschijnlijk een grote variëteit Auteursrechtelijk beschermd materiaal zonder toestemming gebruikt en mogelijk schadelijk materiaal van internet verwijderd. Trainingsgegevens hebben een beslissende invloed op de productie van elk model van kunstmatige intelligentie, dus sommige experts pleiten voor het gebruik van open datasets die mogelijkheden kunnen bieden voor wetenschappelijke reproduceerbaarheid en ethische toetsing.

“Nu LLM’s producten zijn (niet alleen onderzoek), bevinden we ons op een omslagpunt: for-profitorganisaties zullen steeds minder transparant *specifiek* worden over wat het belangrijkst is.” hij twitterde Jesse Dodge, onderzoeker aan het Allen Institute of AI. “Alleen als de open source community zich samen kan organiseren kunnen we verder!”
Tot nu toe heeft de kritiek op het verbergen van de geheime saus Google er niet van weerhouden om AI-modellen op grote schaal in te zetten, ondanks de neiging van alle LLM’s om dingen uit het niets te verzinnen. Tijdens Google I/O demonstreerden de vertegenwoordigers van het bedrijf kunstmatige-intelligentiefuncties in veel van zijn belangrijkste producten, wat betekent dat een breed publiek binnenkort zou kunnen worstelen met kunstmatige technologieën.
En wat LLM’s betreft, is PaLM 2 nog lang niet het einde van het verhaal: in de I/O-keynote vermeldde Pichai dat een nieuwer multimodaal AI-model genaamd “Gemini” momenteel in opleiding was. Terwijl de race om AI-dominantie doorgaat, kunnen Google-gebruikers in de VS en 180 andere landen (verrassend genoeg exclusief Canada en continentaal Europa) PaLM 2 zelf uitproberen als onderdeel van Google Bard, de experimentele kunstmatige assistent-intelligentie.