Groot taalmodel

'n Groottaalmodel (GTM) is 'n berekeningsmodel wat opmerklik is vir sy vermoë om algemene doeltaalgenerering en ander natuurliketaalverwerkingstake soos klassifikasie te bereik. Gebaseer op taalmodelle, verwerf GTM’e hierdie vermoëns deur statistiese verwantskappe uit teksdokumente te leer tydens 'n rekenaarintensiewe selftoesig- en semi-toesig opleidingsproses.^[1] GTM'e kan gebruik word vir teksgenerering, 'n vorm van generatiewe kunsmatige intelligensie (KI), deur 'n invoerteks te neem en die volgende teken of woord herhaaldelik te voorspel. ^[2]

GTM’e is kunsmatige neurale netwerke. Die grootste en mees bekwame, vanaf Maart 2024, is gebou met 'n dekodeerder-net transformator-gebaseerde argitektuur.

Tot 2020 was fynafstelling die enigste manier waarop 'n model aangepas kon word om spesifieke take te kan verrig. Groter modelle, soos GPT-3, kan egter vinnig ontwerp word om soortgelyke resultate te behaal.^[3] Daar word gemeen dat hulle kennis opdoen oor sintaksis, semantiek en "ontologie" wat inherent is aan menslike taalkorpora, maar ook onakkuraathede en vooroordele wat in die korpusse voorkom.^[4]

Sommige noemenswaardige GTM’e is OpenAI se GPT-reeks modelle (bv. GPT-3.5 en GPT-4, wat in ChatGPT en Microsoft Copilot gebruik word), Google se Gemini (waarvan laasgenoemde tans in die kletsbot met dieselfde naam gebruik word), Meta se LaMDA-familie van modelle, Anthropic se Claude-modelle en Mistral AI se modelle.

↑ "Better Language Models and Their Implications". OpenAI. 14 Februarie 2019. Geargiveer vanaf die oorspronklike op 19 Desember 2020. Besoek op 25 Augustus 2019.
↑ Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". [cs.CL].
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Desember 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (reds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
↑ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.

[:7-1] "Better Language Models and Their Implications". OpenAI. 14 Februarie 2019. Geargiveer vanaf die oorspronklike op 19 Desember 2020. Besoek op 25 Augustus 2019.

[Bowman-2] Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". [cs.CL].

[few-shot-learners-3] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Desember 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (reds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.

[Manning-2022-4] Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.

[1]

[2]

[3]

[4]