Duży model językowy Indeks górny Indeks górny [9] Indeks górny koniec (ang. large language model – LLM), taki jak np. ChatGPT, jest modelem statystycznym. Do jego wytrenowania została wykorzystana olbrzymia baza istniejących tekstów. Jednakże stwierdzenie, że tekst generowany przez modele językowe pochodzi bezpośrednio z bazy danych wykorzystanej do ich wytrenowania, jest zbytnim uproszczeniem i często powielanym mitem. W praktyce w procesie uczenia się modeli językowych architektura ucząca o nazwie transformerIndeks górny Indeks górny [10] Indeks górny koniec analizuje wielkie zbiory tekstów, aby stworzyć model, według którego różnego rodzaju kombinacje znaków zawarte w zbiorze danych zostają ułożone w olbrzymią przestrzeń połączeń (tzw. przestrzeń cech, ang. feature space). Ta przestrzeń określa nie tylko prawdopodobieństwo, z jakim pewne układy liter występują po innych, ale w pewnym sensie również znaczenie i kontekst tych różnych układów liter, słów, zdań i całych tekstów w ich różnych możliwych permutacjach. Oznacza to, że taki model może być wykorzystany do napisania całkowicie nowego tekstu, który nie był zawarty w bazie danych. Kiedy ktoś zadaje pytanie (pisze prompt), które nie było częścią tych wcześniejszych tekstów, model porównuje to pytanie z tym, czego się nauczył, i tworzy odpowiedź (prawdopodobną kontynuację promptu). W teorii sam wytrenowany model, jak każdy model oparty na sieciach neuronowych, jest deterministyczny: w wypadku danego wejścia i ustalonych wag modelu zawsze zwróci tę samą odpowiedź. Jednakże w praktycznych implementacjach modeli językowych, takich jak ChatGPT, często stosuje się różne techniki, takie jak próbkowanie temperatury (dostępne w bardziej zaawansowanej wersji ChatGPT dla programistów) oraz tzw. ziarna losowości (ang. seed), które wprowadzają element przypadku do generowanych odpowiedzi na samym poziomie architektury wytrenowanego modelu. Takim ziarnem losowości może być na przykład data i godzina zapytania użytkownika. W ChatGPT użytkownicy nie mają kontroli nad tym parametrem, dlatego w praktycznym zastosowaniu model prawie zawsze zwróci różne odpowiedzi na to samo pytanie, mimo że został wytrenowany na teoretycznie skończonej (choć olbrzymiej) ilości danych.