Der er ingen kildehenvisninger i denne artikel, hvilket er et problem. (marts 2018) (Lær hvordan og hvornår man kan fjerne denne skabelonbesked) |
Datalingvistik er den videnskabelige disciplin der beskæftiger sig med natursprogsbehandling i mennesker og navnlig computere. Datalingvistik har dermed som underdiscipliner den datamatiske behandling af fonetiske/fonologiske, morfologiske og syntaktiske data samt diskursdata. Disse data er henholdsvis (sprog)lyde, orddele, ord og sætninger og deres organisering. Da natursprogsbehandling også dækker formel semantik og logik, er dette også emner inden for datalingvistikken.
En af datalingvistikkens hovedformål har traditionelt været at opstille formelle grammatikker for forskellige aspekter af sproget, dvs. regelsæt der definerer fx den uendelige mængde af et sprogs grammatisk korrekte sætninger uden at overgeneralisere til ugrammatiske sætninger. Tilsvarende regel-baserede modeller har været tilstræbt for diverse andre sprogstrukturelle fænomener.
De mange undtagelser der altid findes til formelle regler man kan stille op for sproglige fænomener har imidlertid ført til en dalende interesse for formelle grammatikker til fordel for undersøgelser af faktiske forekommende sproglige mønstre i store tekstsamlinger (kaldet korpora). Datalingvistikken har dermed taget en drejning hen imod datadreven eller statistisk natursprogsbehandling og korpuslingvistik.