Dataset je kolekce (shluk) dat.
V případě tabulkových dat odpovídá datová sada jedné nebo více databázovým tabulkám, kde každý sloupec tabulky představuje určitou proměnnou a každý řádek odpovídá konkrétnímu záznamu v dané datové sadě. Datová sada uvádí hodnoty pro každou z proměnných, jako například výšku a hmotnost objektu, pro každého člena datové sady. Datové sady mohou také sestávat ze sbírky dokumentů nebo souborů.
V oblasti otevřených dat je datová sada jednotkou, podle které se měří množství informací uvolněných ve veřejném repozitáři otevřených dat. Některé portály agregují tisíce datových sad. [1]
Nejčastěji dataset odpovídá obsahu jedné databázové tabulky nebo jedné statistické datové matici (např. v CSV), kde každý sloupec tabulky reprezentuje hodnoty jedné proměnné (atributu) a každý řádek odpovídá jedné položce příslušné kolekce dat. Dataset udává hodnoty pro všechny proměnné pro všechny položky v kolekci dat. Dataset poskytuje data pro jednu nebo několik položek, jejichž počet odpovídá počtu řádků.
Volněji se termín dataset používá pro kolekci vzájemně propojených tabulek nebo souborů, které se vztahují k určitému experimentu nebo události.