Seznam datových sad pro výzkum strojového učení - List of datasets for machine-learning research

Tyto soubory dat se používají pro výzkum strojového učení a byly citovány v recenzovaných akademických časopisech. Datové sady jsou nedílnou součástí oblasti strojového učení. Zásadní pokroky v této oblasti mohou vyplývat z pokroků v algoritmech učení (jako je například hloubkové učení ), počítačovém hardwaru a, méně intuitivně, v dostupnosti vysoce kvalitních datových sad školení. Vysoce kvalitní značené tréninkové datové sady pro algoritmy strojového učení pod dohledem a částečně pod dohledem jsou obvykle obtížné a nákladné na výrobu z důvodu velkého času potřebného k označení dat. I když nemusí být označeny, může být také výroba vysoce kvalitních datových sad pro učení bez dozoru obtížná a nákladná.

Obrazová data

Datové sady sestávající hlavně z obrázků nebo videa k úkoly, jako je detekce objektů , rozpoznání obličeje , a klasifikace více štítků .

Rozpoznávání obličeje

V počítačovém vidění , byly obrazy obličejů široce používány k vývoji obličejové rozpoznávací systémy , detekce obličeje a mnoho dalších projektů, které používají obrazy obličejů.

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Odkaz	Tvůrce
Aff-Wild	298 videí od 200 jednotlivců, ~ 1 250 000 ručně komentovaných obrázků: komentováno z hlediska dimenzionálního ovlivnění (valenční vzrušení); divoké prostředí; databáze barev; různá rozlišení (průměr = 640x360)	detekované tváře, orientační body obličeje a anotace valenční vzrušení	~ 1 250 000 ručně komentovaných obrázků	video (vizuální + zvukové modality)	ovlivnit rozpoznávání (odhad valence-vzrušení)	2017	CVPR IJCV	D. Kollias a kol.
Aff-Wild2	558 videí od 458 jednotlivců, ~ 2 800 000 ručně komentovaných obrázků: komentováno z hlediska i) kategorického afektu (7 základních výrazů: neutrální, štěstí, smutek, překvapení, strach, znechucení, hněv); ii) rozměrový vliv (valenční vzrušení); iii) akční jednotky (AU 1,2,4,6,12,15,20,25); divoké prostředí; databáze barev; různá rozlišení (průměr = 1030x630)	detekované tváře, detekované a zarovnané tváře a poznámky	~ 2 800 000 ručně komentovaných obrázků	video (vizuální + zvukové modality)	rozpoznávání vlivů (odhad valence-vzrušení, klasifikace základních výrazů, detekce akčních jednotek)	2019	BMVC FG	D. Kollias a kol.
FERET (technologie rozpoznávání obličeje)	11338 obrázků 1199 jednotlivců v různých pozicích a v různých časech.	Žádný.	11,338	snímky	Klasifikace, rozpoznávání tváří	2003		Ministerstvo obrany USA
Ryerson Audiovizuální databáze emoční řeči a písně (RAVDESS)	7 356 obrazových a zvukových záznamů od 24 profesionálních herců. 8 emocí, každá ve dvou intenzitách.	Soubory označené výrazem. Hodnocení vnímání poskytlo 319 hodnotitelů.	7,356	Video, zvukové soubory	Klasifikace, rozpoznávání obličejů, rozpoznávání hlasu	2018		SR Livingstone a FA Russo
SCFace	Barevné obrázky tváří v různých úhlech.	Umístění rysů obličeje extrahováno. Souřadnice uvedených funkcí.	4,160	Obrázky, text	Klasifikace , rozpoznávání tváří	2011		M. Grgic a kol.
Databáze obličejů Yale	Tváře 15 jedinců v 11 různých výrazech.	Štítky výrazů.	165	snímky	Rozpoznávání obličejů	1997		J. Yang a kol.
Databáze výrazů kódovaná Cohn-Kanade AU	Velká databáze obrázků s popisky pro výrazy.	Sledování určitých rysů obličeje.	500+ sekvencí	Obrázky, text	Analýza výrazu obličeje	2000		T. Kanade a kol.
Databáze výrazů obličeje JAFFE	213 snímků 7 mimiky (6 základních výrazů obličeje + 1 neutrální) od 10 japonských modelek.	Obrázky jsou oříznuty do oblasti obličeje. Zahrnuje data sémantického hodnocení na štítcích emocí.	213	Obrázky, text	Poznání výrazu obličeje	1998		Lyons, Kamachi, Gyoba
FaceScrub	Obrázky osobností veřejného života vymazané z vyhledávání obrázků.	Jméno a anotace m/f.	107,818	Obrázky, text	Rozpoznávání obličejů	2014		H. Ng a kol.
Databáze obličejů BioID	Obrázky tváří s vyznačenými polohami očí.	Ručně nastavte polohy očí.	1521	Obrázky, text	Rozpoznávání obličejů	2001		BioID
Datová sada segmentace kůže	Náhodně vzorkované hodnoty barev z obrázků obličeje.	B, G, R, extrahované hodnoty.	245,057	Text	Segmentace, klasifikace	2012		R. Bhatt.
Bospor	3D databáze obrazů obličeje.	Označeno 34 akčních jednotek a 6 výrazů; Označeno 24 obličejových orientačních bodů.	4652	Obrázky, text	Rozpoznávání obličejů, klasifikace	2008		Savran a kol.
UOY 3D-Face	neutrální tvář, 5 výrazů: vztek, štěstí, smutek, zavřené oči, zvednuté obočí.	Značení.	5250	Obrázky, text	Rozpoznávání obličejů, klasifikace	2004		University of York
Databáze obličejů CASIA 3D	Výrazy: Vztek, úsměv, smích, překvapení, zavřené oči.	Žádný.	4624	Obrázky, text	Rozpoznávání obličejů, klasifikace	2007		Ústav automatizace, Čínská akademie věd
CASIA NIR	Výrazy: Hněv Znechucení Strach Štěstí Smutek Překvapení	Žádný.	480	Komentované viditelné spektrum a blízké infračervené video zachycuje rychlostí 25 snímků za sekundu	Rozpoznávání obličejů, klasifikace	2011		Zhao, G. a kol.
BU-3DFE	neutrální tvář a 6 výrazů: hněv, štěstí, smutek, překvapení, znechucení, strach (4 úrovně). Extrahovány 3D obrázky.	Žádný.	2 500	Obrázky, text	Rozpoznání výrazu obličeje, klasifikace	2006		Binghamton University
Datová sada rozpoznávání tváří Grand Challenge	Až 22 vzorků pro každý subjekt. Projevy: vztek, štěstí, smutek, překvapení, znechucení, nafouknutí. 3D data.	Žádný.	4007	Obrázky, text	Rozpoznávání obličejů, klasifikace	2004		Národní institut pro standardy a technologie
Gavabdb	Až 61 vzorků pro každý subjekt. Výrazy neutrální tvář, úsměv, frontální zdůrazněný smích, frontální náhodné gesto. 3D obrázky.	Žádný.	549	Obrázky, text	Rozpoznávání obličejů, klasifikace	2008		Univerzita krále Juana Carlose
3D-RMA	Až 100 subjektů, výrazy většinou neutrální. Několik póz také.	Žádný.	9971	Obrázky, text	Rozpoznávání obličejů, klasifikace	2004		Královská vojenská akademie (Belgie)
SoF	112 osob (66 mužů a 46 žen) nosí brýle za různých světelných podmínek.	Sada syntetických filtrů (rozostření, okluze, šum a posterizace) s různou úrovní obtížnosti.	42 592 (2 662 původních obrázků × 16 syntetických obrázků)	Obrázky, soubor Mat	Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku a detekce brýlí	2017		Afifi, M. a kol.
IMDB-WIKI	IMDB a Wikipedia čelí obrázkům s označením pohlaví a věku.	Žádný	523,051	snímky	Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku	2015		R. Rothe, R. Timofte, LV Gool

Rozpoznání akce

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada TV Human Interaction	Videa z 20 různých televizních pořadů pro předpovídání sociálních akcí: podání ruky, pětka, objetí, polibek a nic.	Žádný.	6 766 videoklipů	videoklipy	Akční predikce	2013	Patron-Perez, A. a kol.
Multimodální databáze Berkeley Human Action Database (MHAD)	Záznamy jedné osoby provádějící 12 akcí	Předzpracování MoCap	660 akčních vzorků	8 PhaseSpace Motion Capture, 2 stereo kamery, 4 Quad kamery, 6 akcelerometrů, 4 mikrofony	Klasifikace akcí	2013	Ofli, F. a kol.
Datová sada THUMOS	Velká datová sada videa pro klasifikaci akcí.	Opatření klasifikovaná a označená.	45 milionů snímků videa	Video, obrázky, text	Klasifikace, detekce akcí	2013	Y. Jiang a kol.
MEXAction2	Datová sada videa pro lokalizaci a sledování akcí	Opatření klasifikovaná a označená.	1000	Video	Detekce akce	2014	Stoian a kol.

Detekce a rozpoznávání objektů

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Vizuální genom	Obrázky a jejich popis		108 000	obrázky, text	Popisky obrázků	2016	R. Krishna a kol.
Datová sada objektů Berkeley 3-D	849 snímků pořízených v 75 různých scénách. Je označeno asi 50 různých tříd objektů.	Pole ohraničující objekty a označování.	849	označené obrázky, text	Rozpoznávání objektů	2014	A. Janoch a kol.
Sada dat segmentace Berkeley a benchmarky 500 (BSDS500)	500 přirozených obrazů, výslovně rozdělených na nesouvislé vlakové, ověřovací a testovací podmnožiny + srovnávací kód. Na základě BSDS300.	Každý obrázek je v průměru segmentován pěti různými subjekty.	500	Segmentované obrázky	Detekce obrysů a hierarchická segmentace obrazu	2011	Kalifornská univerzita, Berkeley
Microsoft Common Objects in Context (COCO)	komplexní každodenní scény běžných předmětů v jejich přirozeném kontextu.	Zvýraznění, označení a klasifikace objektů do 91 typů objektů.	2 500 000	Označené obrázky, text	Rozpoznávání objektů	2015	T. Lin a kol.
SUN databáze	Velmi velká databáze rozpoznávání scén a objektů.	Místa a objekty jsou označeny. Objekty jsou segmentovány.	131,067	Obrázky, text	Rozpoznávání objektů, rozpoznávání scén	2014	J. Xiao a kol.
ImageNet	Databáze obrázků s označenými objekty, která se používá ve výzvě Image Recognition Challenge ve velkém měřítku ImageNet	Označené objekty, ohraničující rámečky, popisná slova, funkce SIFT	14,197,122	Obrázky, text	Rozpoznávání objektů, rozpoznávání scén	2009 (2014)	J. Deng a kol.
Otevřete Obrázky	Velká sada obrázků s licencí CC BY 2.0 s popisky na úrovni obrázku a ohraničujícími rámečky zahrnujícími tisíce tříd.	Štítky na úrovni obrázku, ohraničující rámečky	9,178,275	Obrázky, text	Klasifikace, rozpoznávání objektů	2017
Datová sada pro komerční detekci TV News Channel	Televizní reklamy a zpravodajství.	Funkce zvuku a videa extrahované ze statických obrázků.	129 685	Text	Shlukování, klasifikace	2015	P. Guha a kol.
Datová sada Statlog (Image Segmentation)	Instance byly náhodně vybrány z databáze 7 venkovních snímků a ručně segmentovány, aby byla vytvořena klasifikace pro každý pixel.	Spočítáno mnoho funkcí.	2310	Text	Klasifikace	1990	University of Massachusetts
Caltech 101	Obrázky předmětů.	Jsou vyznačeny podrobné obrysy objektů.	9146	snímky	Klasifikace, rozpoznávání objektů.	2003	F. Li a kol.
Caltech-256	Velká datová sada obrázků pro klasifikaci objektů.	Obrázky jsou kategorizovány a ručně tříděny.	30 607	Obrázky, text	Klasifikace, detekce objektů	2007	G. Griffin a kol.
Datová sada SIFT10M	Funkce SIFT datové sady Caltech-256.	Rozsáhlá extrakce funkcí SIFT.	11,164,866	Text	Klasifikace, detekce objektů	2016	X. Fu a kol.
LabelMe	Komentované obrázky scén.	Objekty načrtnuty.	187 240	Obrázky, text	Klasifikace, detekce objektů	2005	Laboratoř počítačové vědy a umělé inteligence MIT
Městská datová sada	Stereo videosekvence zaznamenané v pouličních scénách s anotacemi na úrovni pixelů. Metadata také zahrnuta.	Segmentace a označování na úrovni pixelů	25 000	Obrázky, text	Klasifikace, detekce objektů	2016	Daimler AG a kol.
Datová sada PASCAL VOC	Velké množství obrázků pro klasifikační úkoly.	Včetně štítku, ohraničovacího rámečku	500 000	Obrázky, text	Klasifikace, detekce objektů	2010	M. Everingham a kol.
CIFAR-10 Dataset	Mnoho malých obrázků s nízkým rozlišením 10 tříd objektů.	Třídy označené, vytvořeny rozdělení tréninkové sady.	60 000	snímky	Klasifikace	2009	A. Krizhevsky a kol.
Datová sada CIFAR-100	Stejně jako CIFAR-10 výše, ale je dáno 100 tříd objektů.	Třídy označené, vytvořeny rozdělení tréninkové sady.	60 000	snímky	Klasifikace	2009	A. Krizhevsky a kol.
Datová sada CINIC-10	Jednotný příspěvek CIFAR-10 a Imagenet s 10 třídami a 3 rozděleními. Větší než CIFAR-10.	Třídy označené, vytvořeny školení, validace, testovací sady.	270 000	snímky	Klasifikace	2018	Luke N.Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey
Móda-MNIST	Databáze módních produktů podobná MNIST	Třídy označené, vytvořeny rozdělení tréninkové sady.	60 000	snímky	Klasifikace	2017	Zalando SE
ne MNIST	Některá veřejně dostupná písma a extrahovaná glyfy z nich vytvořila datovou sadu podobnou MNIST. Existuje 10 tříd s písmeny AJ převzatými z různých písem.	Třídy označené, vytvořeny rozdělení tréninkové sady.	500 000	snímky	Klasifikace	2011	Jaroslav Bulatov
Datová sada německých referenčních hodnot pro detekci dopravních značek	Obrázky vozidel dopravních značek na německých silnicích. Tyto značky odpovídají normám OSN, a proto jsou stejné jako v jiných zemích.	Značky ručně označené	900	snímky	Klasifikace	2013	S Houben a kol.
Datová sada KITTI Vision Benchmark	Autonomní vozidla projíždějící městem střední velikosti zachytila snímky různých oblastí pomocí kamer a laserových skenerů.	Mnoho benchmarků extrahovaných z dat.	> 100 GB dat	Obrázky, text	Klasifikace, detekce objektů	2012	Geiger a kol.
Datová sada Linnaeus 5	Obrázky 5 tříd předmětů.	Třídy označené, vytvořeny rozdělení tréninkové sady.	8000	snímky	Klasifikace	2017	Chaladze a Kalatozishvili
FieldSAFE	Multimodální datová sada pro detekci překážek v zemědělství včetně stereokamery, termokamery, webové kamery, 360stupňové kamery, lidaru, radaru a přesné lokalizace.	Třídy označené geograficky.	> 400 GB dat	Obrázky a 3D mračna bodů	Klasifikace, detekce objektů, lokalizace objektů	2017	M. Kragh a kol.
11K rukou	11 076 ručních obrázků (1 600 x 1 200 pixelů) 190 subjektů různého věku od 18 do 75 let pro rozpoznávání pohlaví a biometrickou identifikaci.	Žádný	11 076 ručních obrázků	Obrázky a soubory štítků (.mat, .txt a .csv)	Rozpoznávání pohlaví a biometrická identifikace	2017	M Afifi
CORe50	Speciálně navržená pro kontinuální/celoživotní učení a rozpoznávání objektů je sbírka více než 500 videí (30 snímků za sekundu) z 50 domácích předmětů patřících do 10 různých kategorií.	Třídy označené, tréninkové sady rozděleny vytvořené na základě 3-way, multi-runs benchmarku.	164 866 snímků RBG-D	obrázky (.png nebo .pkl) a soubory štítků (.pkl, .txt, .tsv)	Klasifikace, rozpoznávání objektů	2017	V. Lomonaco a D. Maltoni
OpenLORIS-Object	Datová sada Lifelong/Continuous Robotic Vision (OpenLORIS-Object) shromážděná skutečnými roboty s několika senzory s vysokým rozlišením obsahuje kolekci 121 objektových instancí (1. verze datové sady, 40 kategorií předmětů denní potřeby pod 20 scén). Datová sada důsledně zohledňuje 4 faktory prostředí v různých scénách, včetně osvětlení, okluze, velikosti pixelu objektu a nepořádku, a explicitně definuje úrovně obtížnosti každého faktoru.	Třídy označené, tréninkové/validační/testovací rozdělené sady vytvořené srovnávacími skripty.	1 106 424 snímků RBG-D	obrázky (.png a .pkl) a (.pkl) soubory štítků	Klasifikace, celoživotní rozpoznávání objektů, robotická vize	2019	Q. Ona a kol.
Datový soubor THz a termální video	Tato multispektrální datová sada obsahuje terahertzová, termální, vizuální, blízká infračervená a trojrozměrná videa předmětů skrytých pod oblečením lidí.	K dispozici jsou 3D vyhledávací tabulky, které vám umožňují promítat obrázky do 3D mračen bodů.	Více než 20 videí. Délka každého videa je přibližně 85 sekund (přibližně 345 snímků).	AP2J	Experimenty s detekcí skrytých objektů	2019	Alexej A. Morozov a Olga S. Sushkova

Rukopis a rozpoznávání znaků

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Dataset umělých postav	Uměle generovaná data popisující strukturu 10 velkých anglických písmen.	Souřadnice čar nakreslených jako celá čísla. Různé další funkce.	6000	Text	Rozpoznávání rukopisu, klasifikace	1992	H. Guvenir a kol.
Datová sada dopisů	Velká písmena tištěná písmena.	Ze všech obrázků je extrahováno 17 funkcí.	20 000	Text	OCR, klasifikace	1991	D. Slate a kol.
CASIA-HWDB	Offline ručně psaná databáze čínských znaků . 3755 tříd ve znakové sadě GB 2312 .	Obrázky ve stupních šedi s pixely na pozadí označenými jako 255.	1,172,907	Obrázky, text	Rozpoznávání rukopisu, klasifikace	2009	CASIA
CASIA-OLHWDB	Online ručně psaná databáze čínských znaků shromážděná pomocí pera Anoto na papíře. 3755 tříd ve znakové sadě GB 2312 .	Poskytuje sekvence souřadnic tahů.	1,174,364	Obrázky, text	Rozpoznávání rukopisu, klasifikace	2009	CASIA
Datová sada trajektorií znaků	Označené vzorky trajektorií hrotu pera pro lidi, kteří píší jednoduché znaky.	3-dimenzionální matice trajektorie rychlosti hrotu pera pro každý vzorek	2858	Text	Rozpoznávání rukopisu, klasifikace	2008	B. Williams
Datová sada Chars74K	Rozpoznávání znaků v přirozených obrazech symbolů používaných v angličtině a kannadštině		74 107		Rozpoznávání znaků, rozpoznávání rukopisu, OCR, klasifikace	2009	T. de Campos
Datová sada znaků UJI Pen	Izolované ručně psané znaky	Zadány souřadnice souřadnic polohy pera při psaní znaků.	11 640	Text	Rozpoznávání rukopisu, klasifikace	2009	F. Prat a kol.
Datová sada Gisette	Ukázky rukopisu z často zaměňovaných 4 a 9 postav.	Funkce extrahované z obrázků, rozdělené na vlak/test, ručně psané obrázky normalizované podle velikosti.	13 500	Obrázky, text	Rozpoznávání rukopisu, klasifikace	2003	Yann LeCun a kol.
Datová sada Omniglot	1623 různých ručně psaných znaků z 50 různých abeced.	Ručně značeno.	38 300	Obrázky, text, tahy	Klasifikace, jednorázové učení	2015	Americká asociace pro rozvoj vědy
Databáze MNIST	Databáze ručně psaných číslic.	Ručně značeno.	60 000	Obrázky, text	Klasifikace	1998	Národní institut pro standardy a technologie
Optické rozpoznávání datové sady ručně psaných číslic	Normalizované bitmapy ručně psaných dat.	Velikost normalizována a mapována na bitmapy.	5620	Obrázky, text	Rozpoznávání rukopisu, klasifikace	1998	E. Alpaydin a kol.
Rozpoznávání datové sady ručně psaných číslic perem	Ručně psané číslice na elektronickém peru-tabletu.	Vektory funkcí extrahované tak, aby byly rovnoměrně rozmístěny.	10,992	Obrázky, text	Rozpoznávání rukopisu, klasifikace	1998	E. Alpaydin a kol.
Datová sada ručně psaných číslic Semeion	Ručně psané číslice od 80 lidí.	Všechny ručně psané číslice byly normalizovány pro velikost a mapovány do stejné mřížky.	1593	Obrázky, text	Rozpoznávání rukopisu, klasifikace	2008	T. Srl
HASYv2	Ručně psané matematické symboly	Všechny symboly jsou vycentrovány a mají velikost 32 x 32 pixelů.	168233	Obrázky, text	Klasifikace	2017	Martin Thoma
Hlučná ručně psaná Bangla datová sada	Obsahuje ručně psaný číselný soubor dat (10 tříd) a základní znakový soubor dat (50 tříd), každý datový soubor má tři typy šumu: bílý gaussovský, pohybové rozostření a snížený kontrast.	Všechny obrázky jsou vycentrovány a mají velikost 32x32.	Datová sada čísel: 23330, Datová sada znaků: 76 000	Snímky, text	Rozpoznávání rukopisu, klasifikace	2017	M. Karki a kol.

Letecké snímky

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada segmentace leteckých snímků	80 leteckých snímků s vysokým rozlišením s prostorovým rozlišením od 0,3 do 1,0.	Obrázky ručně segmentovány.	80	snímky	Letecká klasifikace, detekce objektů	2013	J. Yuan a kol.
Sada dat KIT AIS	Několik označených souborů školení a vyhodnocení leteckých snímků davů.	Obrázky ručně označené tak, aby ukazovaly cesty jednotlivců davy.	~ 150	Obrázky s cestami	Sledování lidí, letecké sledování	2012	M. Butenuth a kol.
Datová sada Wilt	Data dálkového průzkumu nemocných stromů a jiné krajinné pokrývky.	Extrahovány různé funkce.	4899	snímky	Klasifikace, detekce leteckých objektů	2014	B. Johnson
Datová sada MASATI	Námořní scény optických leteckých snímků z viditelného spektra. Obsahuje barevné obrázky v dynamickém mořském prostředí, každý obrázek může obsahovat jeden nebo více cílů v různých povětrnostních a světelných podmínkách.	Pole ohraničující objekty a označování.	7389	snímky	Klasifikace, detekce leteckých objektů	2018	AJ. Gallego a kol.
Datová sada mapování typu lesa	Satelitní snímky lesů v Japonsku.	Extrahovaná pásma vlnových délek obrazu.	326	Text	Klasifikace	2015	B. Johnson
Sada údajů o výzkumu režijních snímků	Komentované snímky nad hlavou. Obrázky s více objekty.	Více než 30 anotací a více než 60 statistik, které popisují cíl v kontextu obrázku.	1000	Obrázky, text	Klasifikace	2009	F. Tanner a kol.
SpaceNet	SpaceNet je korpus komerčních satelitních snímků a označených tréninkových dat.	Soubory GeoTiff a GeoJSON obsahující stopy budov.	> 17533	snímky	Klasifikace, identifikace objektů	2017	DigitalGlobe, Inc.
Datová sada UC Merced Land Use	Tyto obrázky byly ručně extrahovány z velkých snímků ze sbírky snímků USGS National Map Urban Area Imagery pro různé městské oblasti v USA.	Jedná se o datový soubor 21 stupňů využití krajiny určený pro výzkumné účely. Pro každou třídu je 100 obrázků.	2100	Obrazové čipy 256 x 256, 30 cm (1 stopa) GSD	Klasifikace krajinného pokryvu	2010	Yi Yang a Shawn Newsam
Datová sada SAT-4 ve vzduchu	Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP).	SAT-4 má čtyři široké třídy krajinného pokryvu, zahrnuje neplodnou půdu, stromy, louky a třídu, která se skládá ze všech tříd krajinného pokryvu jiných než výše uvedené tři.	500 000	snímky	Klasifikace	2015	S. Basu a kol.
Datová sada SAT-6 ve vzduchu	Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP).	SAT-6 má šest širokých tříd krajinných pokryvů, zahrnuje neplodnou půdu, stromy, louky, silnice, budovy a vodní plochy.	405 000	snímky	Klasifikace	2015	S. Basu a kol.

Další obrázky

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada SUPATLANTIQUE	Obrázky naskenovaných oficiálních dokumentů a dokumentů Wikipedie	Žádný	4908	TIFF/pdf	Identifikace zdrojového zařízení, detekce padělání, klasifikace, ..	2020	C. Ben Rabah a kol.
Hustotní funkční teorie kvantové simulace grafenu	Značené obrázky surového vstupu do simulace grafenu	Nezpracovaná data (ve formátu HDF5) a výstupní štítky z kvantové simulace teorie funkční hustoty	60744 testovacích a 501473 tréninkových souborů	Označené obrázky	Regrese	2019	K. Mills & I. Tamblyn
Kvantové simulace elektronu v dvojrozměrné potenciální jamce	Značené obrázky surového vstupu do simulace 2d kvantové mechaniky	Nezpracovaná data (ve formátu HDF5) a výstupní popisky z kvantové simulace	1,3 milionu obrázků	Označené obrázky	Regrese	2017	K. Mills, MA Spanner a I. Tamblyn
Datová sada MPII o aktivitách vaření	Videa a obrázky z různých aktivit vaření.	Cesty a směry aktivit, popisky, jemnozrnné označení pohybu, třída aktivity, extrakce a označování statických obrázků.	881 755 snímků	Označené video, obrázky, text	Klasifikace	2012	M. Rohrbach a kol.
Datová sada FAMOS	5 000 unikátních mikrostruktur, všechny vzorky byly získány třikrát dvěma různými kamerami.	Původní soubory PNG, seřazené podle kamery a poté podle akvizice. Datové soubory MATLAB s jedním 16384 krát 5 000 matic na kameru na akvizici.	30 000	Obrázky a soubory .mat	Ověření	2012	S. Voloshynovskiy, et al.
Datová sada PharmaPack	1 000 unikátních tříd s 54 obrázky na třídu.	Značení tříd, mnoho místních deskriptorů, jako je SIFT a aKaZE, a lokální agreatory, jako je Fisher Vector (FV).	54 000	Obrázky a soubory .mat	Klasifikace jemných zrn	2017	O. Taran a S. Rezaeifar, et al.
Datová sada Stanford Dogs	Obrázky 120 plemen psů z celého světa.	K dispozici jsou tréninkové/testovací rozdělení a anotace ImageNet.	20 580	Obrázky, text	Klasifikace jemných zrn	2011	A. Khosla a kol.
Datová sada StanfordExtra	2D klíčové body a segmentace pro datovou sadu Stanford Dogs.	K dispozici jsou 2D klíčové body a segmentace.	12,035	Označené obrázky	3D rekonstrukce/odhad pozice	2020	B. Biggs a kol.
Datová sada mazlíčků Oxford-IIIT	37 kategorií mazlíčků se zhruba 200 obrázky každého z nich.	Plemeno označené, těsné ohraničovací pole, segmentace popředí a pozadí.	~ 7 400	Obrázky, text	Klasifikace, detekce objektů	2012	O. Parkhi a kol.
Datová sada funkcí Corel Image	Databáze obrázků s extrahovanými funkcemi.	Mnoho funkcí včetně barevného histogramu, textury souběžného výskytu a barevných momentů,	68 040	Text	Klasifikace, detekce objektů	1999	M. Ortega-Bindenberger a kol.
Datová sada online video charakteristik a času překódování.	Časy překódování pro různá různá videa a vlastnosti videa.	Uvedené funkce videa.	168,286	Text	Regrese	2015	T. Deneke a kol.
Datová sada Microsoft Sequential Image Narrative Dataset (SIND)	Datová sada pro sekvenční vidění do jazyka	Ke každé fotografii je uveden popisný popisek a vyprávění a fotografie jsou seřazeny v sekvencích	81,743	Obrázky, text	Vizuální vyprávění	2016	Microsoft Research
Datová sada Caltech-UCSD Birds-200-2011	Velká datová sada obrázků ptáků.	Umístění dílů pro ptáky, ohraničovací rámečky, zadáno 312 binárních atributů	11 788	Obrázky, text	Klasifikace	2011	C. Wah a kol.
YouTube-8 mil	Velká a různorodá datová sada označených videí	ID videa na YouTube a související štítky z různorodého slovníku 4800 vizuálních entit	8 milionů	Video, text	Klasifikace videa	2016	S. Abu-El-Haija a kol.
YFCC100M	Velká a různorodá označená datová sada obrázků a videí	Videa a obrázky na Flickru a související popis, názvy, tagy a další metadata (například EXIF a geotagy)	100 miliónů	Video, obrázek, text	Klasifikace videa a obrazu	2016	B. Thomee a kol.
Diskrétní LIRIS-ACCEDE	Krátká videa komentovaná valencí a vzrušením.	Štítky valence a vzrušení.	9800	Video	Detekce emocí videa	2015	Y. Baveye a kol.
Nepřetržitý LIRIS-ACCEDE	Dlouhá videa komentovaná valencí a vzrušením a zároveň shromažďující galvanickou reakci na kůži.	Štítky valence a vzrušení.	30	Video	Detekce emocí videa	2015	Y. Baveye a kol.
MediaEval LIRIS-ACCEDE	Rozšíření Discrete LIRIS-ACCEDE včetně anotací úrovní násilí ve filmech.	Štítky násilí, valence a vzrušení.	10900	Video	Detekce emocí videa	2015	Y. Baveye a kol.
Leeds Sports Pose	Kloubové anotace lidské pózy ve 2 000 přirozených sportovních snímcích z Flickru.	Hrubý výřez kolem jedné zajímavé osoby se 14 společnými štítky	2000	Obrázky plus štítky souborů .mat	Odhad lidské pózy	2010	S. Johnson a M. Everingham
Rozšířený trénink Leeds Sports Pose	Kloubové anotace lidské pózy na 10 000 přírodních sportovních snímků z Flickru.	14 společných štítků prostřednictvím crowdsourcingu	10 000	Obrázky plus štítky souborů .mat	Odhad lidské pózy	2011	S. Johnson a M. Everingham
Datová sada MCQ	6 různých skutečných zkoušek založených na více možnostech (735 odpovědních listů a 33 540 odpovědních políček) k hodnocení technik a systémů počítačového vidění vyvinutých pro systémy hodnocení testů s výběrem odpovědí.	Žádný	735 odpovědí a 33 540 odpovědí	Obrázky a popisky souborů .mat	Vývoj systémů pro hodnocení testů s výběrem odpovědí	2017	Afifi, M. a kol.
Sledovací videa	Skutečná sledovací videa pokrývají velkou dobu sledování (7 dní po 24 hodinách).	Žádný	19 sledovacích videí (7 dní po 24 hodinách).	Videa	Komprese dat	2016	Taj-Eddin, IATF a kol.
LILA BC	Značená informační knihovna Alexandrie: biologie a ochrana. Označené obrázky, které podporují výzkum strojového učení kolem ekologie a environmentální vědy.	Žádný	~ 10 milionů obrázků	snímky	Klasifikace	2019	Pracovní skupina LILA
Můžeme vidět fotosyntézu?	32 videí pro osm živých a osm mrtvých listů zaznamenaných za světelných podmínek DC i AC.	Žádný	32 videí	Videa	Detekce živosti rostlin	2017	Taj-Eddin, IATF a kol.

Textová data

Datové sady sestávající převážně z textu pro úkoly, jako je zpracování přirozeného jazyka , analýza sentimentu , překlady a klastrová analýza .

Recenze

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Recenze Amazonu	Recenze produktů USA z Amazon.com .	Žádný.	233,1 milionu	Text	Klasifikace, analýza sentimentu	2015 (2018)	McAuley a kol.
OpinRank Review Dataset	Recenze automobilů a hotelů z webu Edmunds.com a TripAdvisor .	Žádný.	42 230 / ~ 259 000, resp	Text	Analýza sentimentu, shlukování	2011	K. Ganesan a kol.
Objektiv MovieLens	22 000 000 hodnocení a 580 000 značek bylo použito na 33 000 filmů od 240 000 uživatelů.	Žádný.	~ 22 mil	Text	Regrese, shlukování, klasifikace	2016	GroupLens Research
Yahoo! Hodnocení uživatelů hudby hudebních umělců	Více než 10 milionů hodnocení umělců od uživatelů Yahoo.	Žádný popsán.	~ 10 mil	Text	Shlukování, regrese	2004	Yahoo!
Sada dat pro hodnocení automobilů	Vlastnosti auta a jejich celková přijatelnost.	Je uvedeno šest kategorických funkcí.	1728	Text	Klasifikace	1997	M. Bohanec
Datová sada preferencí Comedy Slam	Údaje o hlasování uživatelů pro dvojice videí zobrazených na YouTube. Uživatelé hlasovali pro zábavnější videa.	Jsou zadána metadata videa.	1,138,562	Text	Klasifikace	2012	Google
Datová sada uživatelských recenzí Skytrax	Uživatelské recenze leteckých společností, letišť, sedadel a salonků od společnosti Skytrax.	Hodnocení jsou jemná a zahrnují mnoho aspektů letištních zkušeností.	41396	Text	Klasifikace, regrese	2015	Q. Nguyen
Dataset hodnocení pedagogického asistenta	Recenze asistenta pedagoga.	Jsou uvedeny vlastnosti každé instance, jako je třída, velikost třídy a instruktor.	151	Text	Klasifikace	1997	W. Loh a kol.
Korpus zpětné vazby vietnamských studentů (UIT-VSFC)	Zpětná vazba studentů.	Komentáře	16 000	Text	Klasifikace	1997	Nguyen a kol.
Vietnamese Social Media Emotion Corpus (UIT-VSMEC)	Komentáře uživatelů na Facebooku.	Komentáře	6927	Text	Klasifikace	1997	Nguyen a kol.
Datový soubor pro detekci stížností na vietnamskou otevřenou doménu (ViOCD)	Recenze produktů zákazníků	Komentáře	5 485	Text	Klasifikace	2021	Nguyen a kol.

Novinové články

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada NYSK	Anglické zpravodajské články o případu týkajícím se obvinění ze sexuálního napadení bývalého ředitele MMF Dominique Strauss-Kahna .	Filtrováno a prezentováno ve formátu XML.	10 421	XML, text	Analýza sentimentu, extrakce tématu	2013	Dermouche, M. a kol.
Korpus Reuters, svazek 1	Velký korpus novinek Reuters v angličtině.	Kategorizace jemných zrn a kódy témat.	810 000	Text	Klasifikace, shlukování, sumarizace	2002	Reuters
Korpus svazku 2 agentury Reuters	Velký korpus novinek Reuters ve více jazycích.	Kategorizace jemných zrn a kódy témat.	487 000	Text	Klasifikace, shlukování, sumarizace	2005	Reuters
Sbírka výzkumu textu Thomson Reuters	Velký korpus novinek.	Podrobnosti nejsou popsány.	1 800 370	Text	Klasifikace, shlukování, sumarizace	2009	T. Rose a kol.
Saúdské noviny Corpus	31 030 článků v arabských novinách.	Extrahována metadata.	31 030	JSON	Shrnutí, shlukování	2015	M. Alhagri
RE3D (datová sada pro vyhodnocení extrakce vztahů a entit)	Entita a vztah označila data z různých zpravodajských a vládních zdrojů. Sponzorováno společností Dstl	Filtrováno, kategorizace pomocí typů Baleen	neznámý	JSON	Rozpoznání klasifikace, entity a vztahu	2017	Dstl
Zkoušející Spam Clickbait Katalog	Clickbait, spam, titulky z davu od roku 2010 do roku 2015	Publikovat datum a titulky	3,089,781	CSV	Shlukování, události, sentiment	2016	R. Kulkarni
ABC Australia News Corpus	Celý zpravodajský korpus ABC Australia od roku 2003 do roku 2019	Publikovat datum a titulky	1,186,018	CSV	Shlukování, události, sentiment	2020	R. Kulkarni
Celosvětové zprávy - souhrn 20 000 kanálů	Týdenní snímek všech online titulků ve více než 20 jazycích	Čas publikování, adresa URL a titulky	1 398 431	CSV	Shlukování, události, detekce jazyků	2018	R. Kulkarni
Reuters News Wire Headline	11 let časově označených událostí zveřejněných na zpravodajském drátu	Čas publikování, text nadpisu	16,121,310	CSV	NLP, Výpočetní lingvistika, Události	2018	R. Kulkarni
The Irish Times Ireland News Corpus	Novinky 24 let Irska od roku 1996 do roku 2019	Čas publikování, kategorie nadpisu a text	1,484,340	CSV	NLP, Výpočetní lingvistika, Události	2020	R. Kulkarni
Datový soubor novinek pro detekci sarkasmu	Vysoce kvalitní datová sada s titulky novinek Sarcastic a Non sarcastic.	Čistý, normalizovaný text	26 709	JSON	NLP, klasifikace, lingvistika	2018	Rishabh Misra

Zprávy

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada e -mailů Enron	E -maily od zaměstnanců společnosti Enron jsou uspořádány do složek.	Přílohy odstraněny, neplatné e -mailové adresy převedeny na user@enron.com nebo no_address@enron.com.	~ 500 000	Text	Analýza sítě, analýza sentimentu	2004 (2015)	Klimt, B. a Y. Yang
Datová sada Ling-Spam	Korpus obsahující legitimní i nevyžádané e -maily.	Čtyři verze korpusu zahrnující, zda byl povolen lemmatiser nebo stop-list.	2 412 šunky 481 spam	Text	Klasifikace	2000	Androutsopoulos, J. a kol.
Datová sada shromažďování spamu SMS	Shromážděné nevyžádané zprávy SMS.	Žádný.	5574	Text	Klasifikace	2011	T. Almeida a kol.
Datová sada Dvacet diskusních skupin	Zprávy z 20 různých diskusních skupin.	Žádný.	20 000	Text	Zpracování přirozeného jazyka	1999	T. Mitchell a kol.
Datová sada Spambase	Spamové e -maily.	Extrahováno mnoho textových funkcí.	4,601	Text	Detekce spamu, klasifikace	1999	M. Hopkins a kol.
Datová sada ColBERT	Krátké vtipy.	Odlehlé hodnoty byly odstraněny.	200 000	Text	Detekce humoru, klasifikace	2020	I. Annamoradnejad.

Twitter a tweety

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Filmové tweety	Datová sada hodnocení filmů založená na veřejných a dobře strukturovaných tweetech		~ 710 000	Text	Klasifikace, regrese	2018	S. Dooms
Twitter 100 tis	Páry obrázků a tweetů		100 000	Text a obrázky	Vyhledávání napříč médii	2017	Y. Hu, et al.
Sentiment 140	Tweetujte data z roku 2009 včetně původního textu, časového razítka, uživatele a sentimentu.	Zařazeno pomocí vzdáleného dohledu z přítomnosti emotikonu v tweetu.	1 578 627	Tweety, čárka, oddělené hodnoty	Analýza sentimentu	2009	A. Go a kol.
Datová sada Twitter ASU	Data sítě Twitter, nikoli skutečné tweety. Ukazuje spojení mezi velkým počtem uživatelů.	Žádný.	11 316 811 uživatelů, 85 331 846 připojení	Text	Shlukování, analýza grafů	2009	R. Zafarani a kol.
SNAP Social Circles: Twitterová databáze	Velká data sítě Twitter.	Funkce uzlů, kruhy a sítě ega.	1 768 149	Text	Shlukování, analýza grafů	2012	J. McAuley a kol.
Datová sada Twitter pro analýzu arabských sentimentů	Arabské tweety.	Vzorky ručně označené jako pozitivní nebo negativní.	2000	Text	Klasifikace	2014	N. Abdulla
Buzz v datové sadě sociálních médií	Data z Twitteru a Tom's Hardware. Tato datová sada se zaměřuje na konkrétní témata buzz, o nichž se na těchto webech diskutuje.	Data jsou umístěna v okně, aby se uživatel mohl pokusit předpovědět události, které vedly k buzeraci sociálních médií.	140 000	Text	Regrese, klasifikace	2013	F. Kawala a kol.
Parafráze a sémantická podobnost na Twitteru (PIT)	Tato datová sada se zaměřuje na to, zda tweety mají (téměř) stejný význam/informace nebo ne. Ručně označeno.	tokenizace, mluvené slovo a označování pojmenovaných entit	18,762	Text	Regrese, klasifikace	2015	Xu a kol.
Geoparse Twitter benchmark dataset	Tato datová sada obsahuje tweety během různých zpravodajských událostí v různých zemích. Ručně označené umístění zmiňuje.	anotace umístění přidané do metadat JSON	6 386	Tweety, JSON	Klasifikace, extrakce informací	2014	SE Middleton a kol.
Nizozemská sbírka sociálních médií	Tato datová sada obsahuje tweety COVID-19 vytvořené holandskými mluvčími nebo uživateli z Nizozemska. Data byla strojově anotována	klasifikováno pro sentiment, text tweetu a popis uživatele přeloženo do angličtiny. Extrahují se zmínky o průmyslu	271 342	JSONL	Sentiment, klasifikace více štítků, strojový překlad	2020	Aaaksh Gupta, CoronaProč

Dialogy

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
NPS Chat Corpus	Příspěvky z online chatovacích místností specifických pro věk.	Ochrana soukromí rukou maskována, označena pro část řeči a dialogu.	~ 500 000	XML	NLP, programování, lingvistika	2007	Forsyth, E., Lin, J., & Martell, C.
Triple Corpus na Twitteru	ABA ztrojnásobila z Twitteru.		4,232	Text	NLP	2016	Sordini, A. a kol.
Použijte síť Corpus	Příspěvky na fóru UseNet.	Anonymizované e-maily a adresy URL. Vynechané dokumenty s délkou <500 slov nebo> 500 000 slov, nebo které byly z <90% angličtiny.	7 miliard	Text		2011	Shaoul, C., a Westbury C.
NUS SMS Corpus	SMS zprávy shromážděné mezi dvěma uživateli s časovou analýzou.		~ 10 000	XML	NLP	2011	KAN, M
Reddit Všechny komentáře Corpus	Všechny komentáře Reddit (od roku 2015).		~ 1,7 miliardy	JSON	NLP, výzkum	2015	Stuck_In_the_Matrix
Ubuntu Dialogue Corpus	Dialogy extrahované ze streamu chatu Ubuntu na IRC.			CSV	Výzkum dialogových systémů	2015	Lowe, R. a kol.
Dialogová výzva ke sledování stavu	Dialog State Tracking Challenges 2 & 3 (DSTC2 & 3) byly výzkumnou výzvou zaměřenou na zlepšení současného stavu ve sledování stavu systémů mluvených dialogů.	Přepis mluvených dialogů s označováním	DSTC2 obsahuje ~ 3,2k volání - DSTC3 obsahuje ~ 2,3k volání	JSON	Sledování stavu dialogu	2014	Henderson, Matthew a Thomson, Blaise a Williams, Jason D.

Jiný text

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada Web of Science	Hierarchické datové sady pro klasifikaci textu	Žádný.	46,985	Text	Klasifikace, Kategorizace	2017	K. Kowsari a kol.
Právní případové zprávy	Případy federálního soudu v Austrálii v letech 2006 až 2009.	Žádný.	4 000	Text	Shrnutí, citační analýza	2012	F. Galgani a kol.
Blogger Authorship Corpus	Záznamy blogu 19 320 lidí z blogger.com.	Blogger si sám určil pohlaví, věk, obor a astrologické znamení.	681 288	Text	Analýza sentimentu, sumarizace, klasifikace	2006	J. Schler a kol.
Sociální struktura sítí Facebook	Velký datový soubor sociální struktury Facebooku.	Žádný.	Zahrnuto 100 vysokých škol	Text	Síťová analýza, klastrování	2012	A. Traud a kol.
Datová sada pro strojové porozumění textu	Příběhy a související otázky pro testování porozumění textu.	Žádný.	660	Text	Zpracování přirozeného jazyka, strojové porozumění	2013	M. Richardson a kol.
Projekt Penn Treebank	Přirozeně se vyskytující text anotovaný pro lingvistickou strukturu.	Text je analyzován do sémantických stromů.	~ 1 milion slov	Text	Zpracování přirozeného jazyka, sumarizace	1995	M. Marcus a kol.
Datová sada DEXTER	Zadaným úkolem je určit z uvedených funkcí, které články jsou o akvizicích společností.	Extrahované funkce zahrnují stopky slov. Součástí jsou rušivé prvky.	2 600	Text	Klasifikace	2008	Reuters
Knihy Google v gramech	N-gramů z velmi velkého korpusu knih	Žádný.	2,2 TB textu	Text	Klasifikace, shlukování, regrese	2011	Google
Personae Corpus	Shromážděno pro experimenty v autorské atribuci a predikci osobnosti. Skládá se ze 145 esejů v holandštině.	Kromě běžných textů jsou uvedeny i syntakticky komentované texty.	145	Text	Klasifikace, regrese	2008	K. Luyckx a kol.
Datová sada CNAE-9	Kategorizační úkol pro volné textové popisy brazilských společností.	Frekvence slov byla extrahována.	1080	Text	Klasifikace	2012	P. Ciarelli a kol.
Datová sada Sentiment Labeled Sentences	3000 sentimentem označených vět.	Sentiment každé věty byl ručně označen jako pozitivní nebo negativní.	3000	Text	Klasifikace, analýza sentimentu	2015	D. Kotzias
Datová sada BlogFeedback	Datová sada pro předpovídání počtu komentářů, které příspěvek obdrží na základě funkcí daného příspěvku.	Extrahováno mnoho funkcí každého příspěvku.	60,021	Text	Regrese	2014	K. Buza
Stanfordský přirozený jazykový závěr (SNLI) Corpus	Obrazové titulky spárované s nově vytvořenými větami vytvářející entuziazmus, rozpor nebo neutrální páry.	Štítky třídy útěků, syntaktická analýza analyzátorem Stanford PCFG	570 000	Text	Vyvozování přirozeného jazyka/rozpoznávání textových souvislostí	2015	S. Bowman a kol.
Kolekce DSL Corpus (DSLCC)	Vícejazyčná sbírka krátkých ukázek novinářských textů v podobných jazycích a dialektech.	Žádný	294 000 frází	Text	Diskriminace mezi podobnými jazyky	2017	Tan, Liling a kol.
Datový soubor městského slovníku	Korpus slov, hlasů a definic	Anonymita uživatelských jmen	2 580 925	CSV	NLP, strojové porozumění	2016 květen	Anonymní
T rex	Abstrakty Wikipedie zarovnané s entitami Wikidata	Zarovnání Wikidata se ztrojnásobuje s abstrakty Wikipedie	11M zarovnáno trojnásobek	JSON a NIF [2]	NLP, extrakce relací	2018	H. Elsahar a kol.
Obecné jazykové hodnocení (GLUE)	Srovnávací test devíti úkolů	Rozličný	~ 1 milion vět a větných dvojic		NLU	2018	Wang a kol.
Contract Understanding Atticus Dataset (CUAD) (dříve známý jako Atticus Open Contract Dataset (AOK))	Datová sada právních smluv s bohatými odbornými anotacemi		~ 13 000 štítků	CSV a PDF	Zpracování přirozeného jazyka, QnA	2021	Projekt Atticus
Datová sada titulků vietnamských obrázků (UIT-ViIC)	Datová sada vietnamských titulků pro obrázky		19 250 titulků pro 3 850 obrázků	CSV a PDF	Zpracování přirozeného jazyka, počítačové vidění	2020	Lam a kol.
Vietnamská jména anotovaná pohlavími (UIT-ViNames)	Vietnamská jména komentovaná rodem		26 850 vietnamských celých jmen opatřených anotacemi podle pohlaví	CSV	Zpracování přirozeného jazyka	2020	To et al.
Datová sada pro vietnamskou konstruktivní a toxickou řeč (UIT-ViCTSD)	Datová sada pro vietnamskou konstruktivní a toxickou řeč		10 000 komentářů vietnamských uživatelů k online novinám na 10 doménách	CSV	Zpracování přirozeného jazyka	2021	Nguyen a kol.
Datová sada ColBERT	Krátké vtipy.	Odlehlé hodnoty byly odstraněny.	200 000	Text	Detekce humoru, klasifikace	2020	Annamoradnejad a kol.

Zvuková data

Datové sady zvuků a zvukových funkcí.

Mluvený projev

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Zero Resource Speech Challenge 2015	Spontánní řeč (anglicky), Přečtěte si řeč (Xitsonga).	surová vlna	Angličtina: 5h, 12 reproduktorů; Xitsonga: 2:30; 24 reproduktorů	zvuk	Zjišťování funkcí řeči/podslovních jednotek/slovních jednotek bez dozoru	2015	Versteegh a kol.
Datová sada Parkinsonovy řeči	Několik záznamů lidí s Parkinsonovou nemocí i bez ní.	Extrahované hlasové funkce, nemoc hodnocená lékařem pomocí jednotné stupnice hodnocení Parkinsonovy choroby	1040	Text	Klasifikace, regrese	2013	BE Sakar a kol.
Mluvené arabské číslice	Mluvené arabské číslice od 44 mužů a 44 žen.	Časové řady koeficientů cepstrumu kmitočtu mel .	8800	Text	Klasifikace	2010	M. Bedda a kol.
Datová sada ISOLET	Mluvená jména písmen.	Funkce extrahované ze zvuků.	7797	Text	Klasifikace	1994	R. Cole a kol.
Datová sada japonských samohlásek	Devět mužských řečníků proneslo postupně dvě japonské samohlásky.	Aplikovala na něj 12stupňovou lineární predikční analýzu, aby získala diskrétní časovou řadu s 12 koeficienty cepstrum.	640	Text	Klasifikace	1999	M. Kudo a kol.
Datová sada Parkinsonova telemonitorování	Několik záznamů lidí s Parkinsonovou nemocí i bez ní.	Extrahovány zvukové funkce.	5875	Text	Klasifikace	2009	A. Tsanas a kol.
TIMIT	Záznamy 630 mluvčích osmi hlavních dialektů americké angličtiny, z nichž každý čte deset foneticky bohatých vět.	Řeč je přepsána lexikálně a fonemicky.	6300	Text	Rozpoznávání řeči, klasifikace.	1986	J. Garofolo a kol.
Arabský řečový korpus	Jeden reproduktor, Modern Standard Arabic (MSA) řečový korpus s fonetickými a ortografickými přepisy zarovnanými na úroveň fonému	Řeč je ortograficky a foneticky přepisována značkami napětí.	~ 1900	Text, WAV	Syntéza řeči, Rozpoznávání řeči, Zarovnání korpusu, Logopedie, Vzdělávání.	2016	N. Halabi
Společný hlas	Public domain databáze crowdsourcovaných dat v celé řadě dialektů.	Ověření ostatními uživateli	Angličtina: 1 118 hodin	MP3 s odpovídajícími textovými soubory	Rozpoznávání řeči	Červen 2017 (prosinec 2019)	Mozilla

Hudba

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Geografický původ sady hudebních dat	Zvukové funkce hudebních ukázek z různých míst.	Zvukové funkce extrahované pomocí softwaru MARSYAS.	1059	Text	Geografická klasifikace, shlukování	2014	F. Zhou a kol.
Datová sada Million Song	Funkce zvuku z milionu různých skladeb.	Extrahovány zvukové funkce.	1 mil	Text	Klasifikace, shlukování	2011	T. Bertin-Mahieux a kol.
MUSDB18	Vícestopé populární hudební nahrávky	Surový zvuk	150	MP4, WAV	Separace zdroje	2017	Z. Rafii a kol.
Zdarma hudební archiv	Zvuk pod Creative Commons ze 100 000 skladeb (343 dní, 1 TB) s hierarchií 161 žánrů, metadat, uživatelských dat, volného textu.	Surový zvuk a zvukové funkce.	106,574	Text, MP3	Klasifikace, doporučení	2017	M. Defferrard a kol.
Datová sada Bach Choral Harmony	Bachovy chorály.	Extrahovány zvukové funkce.	5665	Text	Klasifikace	2014	D. Radicioni a kol.

Jiné zvuky

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
UrbanSound	Označené zvukové záznamy zvuků, jako jsou klimatizace, klaksony a hrající si děti.	Seřazeno do složek podle třídy událostí a také metadat v souboru JSON a anotací v souboru CSV.	1059	Zvuk ( WAV )	Klasifikace	2014	J. Salamon a kol.
AudioSet	10sekundové zvukové úryvky z videí na YouTube a ontologie s více než 500 štítky.	128-d funkce PCA'd VGG-ish každou 1 sekundu.	2,084,320	Textové (CSV) a soubory TensorFlow Record	Klasifikace	2017	J. Gemmeke a kol., Google
Výzva k detekci zvuku ptáků	Zvuk z monitorovacích stanic životního prostředí a nahrávky davu		17 000+		Klasifikace	2016 (2018)	Queen Mary University a IEEE Signal Processing Society
Okolní směsi WSJ0 Hipster	Zvuk z WSJ0 smíchaný s hlukem zaznamenaným v oblasti San Francisco Bay Area	Hlukové klipy odpovídají klipům WSJ0	28 000	Zvuk ( WAV )	Oddělení zvukového zdroje	2019	Wichern, G. a kol., Whisper a MERL
Clotho	4 981 zvukových ukázek o délce 15 až 30 sekund, každý zvukový vzorek má pět různých titulků o délce osm až 20 slov.		24 905	Zvuk ( WAV ) a text ( CSV )	Automatické zvukové titulky	2020	K. Drossos, S. Lipping a T. Virtanen

Signální data

Datové sady obsahující informace o elektrickém signálu vyžadující nějaký druh zpracování signálu pro další analýzu.

Elektrický

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datový soubor Witty Worm	Datová sada popisující šíření červa Witty a infikovaných počítačů.	Rozdělte na veřejně dostupnou sadu a omezenou sadu obsahující citlivější informace, jako jsou záhlaví IP a UDP.	55 909 IP adres	Text	Klasifikace	2004	Centrum pro aplikovanou internetovou analýzu dat
Datový soubor pro odhad krevního tlaku bez manžety	Vyčištěné vitální signály od lidských pacientů, které lze použít k odhadu krevního tlaku.	Byly vyčištěny 125 Hz vitální funkce.	12 000	Text	Klasifikace, regrese	2015	M. Kachuee a kol.
Datová sada pole senzorů plynu	Měření ze 16 chemických senzorů použitých v simulacích pro kompenzaci driftu.	Rozsáhlý počet daných funkcí.	13 910	Text	Klasifikace	2012	A. Vergara
Servo datová sada	Data pokrývající nelineární vztahy pozorované v obvodu servozesilovače.	Jsou uvedeny úrovně různých složek jako funkce ostatních složek.	167	Text	Regrese	1993	K. Ullrich
Datová sada UJIIndoorLoc-Mag	Vnitřní lokalizační databáze pro testování vnitřních polohovacích systémů. Data jsou založena na magnetickém poli.	Dané tréninkové a testovací mezery.	40 000	Text	Klasifikace, regrese, shlukování	2015	D. Rambla a kol.
Datová sada diagnostiky pohonu bez čidel	Elektrické signály z motorů s vadnými součástmi.	Extrahovány statistické funkce.	58 508	Text	Klasifikace	2015	M. Bator

Sledování pohybu

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Wearable Computing: Klasifikace držení těla a pohybů (PUC-Rio)	Lidé provádějící pět standardních akcí při sledování pohybu.	Žádný.	165,632	Text	Klasifikace	2013	Papežská katolická univerzita v Rio de Janeiru
Datová sada segmentace gest	Funkce extrahované z videa lidí, kteří dělají různá gesta.	Extrahované funkce se zaměřují na studium segmentace fází gest.	9900	Text	Klasifikace, shlukování	2014	R. Madeo a kol
Datová sada datové sady fyzických akcí Vicon	10 normálních a 10 agresivních fyzických akcí, které měří lidskou aktivitu sledovanou 3D trackerem.	Mnoho parametrů zaznamenává 3D tracker.	3000	Text	Klasifikace	2011	T. Theodoridis
Datová sada denních a sportovních aktivit	Data senzoru motoru pro 19 denních a sportovních aktivit.	Bylo dáno mnoho senzorů, žádné předzpracování signálů.	9120	Text	Klasifikace	2013	B. Barshan a kol.
Rozpoznávání lidské činnosti pomocí datové sady chytrých telefonů	Data gyroskopu a akcelerometru od lidí, kteří nosí chytré telefony a provádějí běžné akce.	Provedené akce jsou označeny, všechny signály jsou předem zpracovány na šum.	10,299	Text	Klasifikace	2012	J. Reyes-Ortiz a kol.
Znaky australského znakového jazyka	Australské znaky znakové řeči zachycené rukavicemi pro sledování pohybu.	Žádný.	2565	Text	Klasifikace	2002	M. Kadous
Cvičení na vzpírání monitorovaná pomocí inerciálních měřicích jednotek	Pět variací cviku na bicepsový záhyb monitorovaných pomocí IMU.	Některé statistiky vypočteny z nezpracovaných dat.	39,242	Text	Klasifikace	2013	W. Ugulino a kol.
Datová sada sEMG pro základní pohyby rukou	Dvě databáze povrchových elektromyografických signálů o 6 pohybech rukou.	Žádný.	3000	Text	Klasifikace	2014	C. Sapsanis a kol.
Datová sada rozpoznávání aktivit REALDISP	Vyhodnoťte techniky zabývající se efekty posunutí senzoru při rozpoznávání nositelné aktivity.	Žádný.	1419	Text	Klasifikace	2014	O. Banos a kol.
Datová sada rozpoznávání aktivity heterogenity	Data z více různých chytrých zařízení pro lidi provádějící různé činnosti.	Žádný.	43 930 257	Text	Klasifikace, shlukování	2015	A. Stisen a kol.
Předpověď pohybu vnitřního uživatele z údajů RSS	Dočasná bezdrátová síťová data, která lze použít ke sledování pohybu osob v kanceláři.	Žádný.	13,197	Text	Klasifikace	2016	D. Bacciu
Datová sada pro monitorování fyzické aktivity PAMAP2	18 různých typů fyzických aktivit prováděných 9 subjekty na sobě 3 IMU.	Žádný.	3 850 505	Text	Klasifikace	2012	A. Reiss
Datová sada rozpoznávání aktivit OPPORTUNITY	Rozpoznávání lidské aktivity pomocí nositelných, objektových a okolních senzorů je datová sada navržená pro srovnání algoritmů rozpoznávání lidské aktivity.	Žádný.	2551	Text	Klasifikace	2012	D. Roggen a kol.
Datová sada pro rozpoznávání aktivit v reálném světě	Rozpoznávání lidské aktivity z nositelných zařízení. Rozlišuje sedm poloh zařízení na těle a obsahuje šest různých druhů senzorů.	Žádný.	3 150 000 (na snímač)	Text	Klasifikace	2016	T. Sztyler a kol.
Datová sada Toronto Rehab Stroke Pose	3D odhady lidské pózy (Kinect) pacientů s mrtvicí a zdravých účastníků provádějících sadu úkolů pomocí robota pro rehabilitaci mrtvice.	Žádný.	10 zdravých osob a 9 pacientů, kteří přežili mrtvici (3 500–6 000 snímků na osobu)	CSV	Klasifikace	2017	E. Dolatabadi a kol.
Corpus of Social Touch (CoST)	7805 gest zachycuje 14 různých sociálních dotykových gest prováděných 31 subjekty. Gesta byla prováděna ve třech variantách: jemná, normální a drsná, na mřížce senzoru tlaku omotané kolem paže figuríny.	Provedená dotyková gesta jsou segmentována a označena.	7805 zachycuje gesta	CSV	Klasifikace	2016	M. Jung a kol.

Jiné signály

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Odkaz	Tvůrce
Datová sada vína	Chemická analýza vín pěstovaných ve stejné oblasti v Itálii, ale získaných ze tří různých kultivarů.	Je uvedeno 13 vlastností každého vína	178	Text	Klasifikace, regrese	1991		M. Forina a kol.
Soubor dat elektrárny s kombinovaným cyklem	Data z různých senzorů v elektrárně běžící 6 let.	Žádný	9568	Text	Regrese	2014		P. Tufekci a kol.

Fyzická data

Datové sady z fyzických systémů.

Fyzika vysokých energií

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Odkaz	Tvůrce
Datová sada HIGGS	Monte Carlo simulace kolizí urychlovače částic.	Je uvedeno 28 vlastností každé kolize.	11 mil	Text	Klasifikace	2014		D. Whiteson
Datová sada HEPMASS	Monte Carlo simulace kolizí urychlovače částic. Cílem je oddělit signál od šumu.	Je uvedeno 28 vlastností každé kolize.	10 500 000	Text	Klasifikace	2016		D. Whiteson

Systémy

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datový soubor hydrodynamiky jachet	Výkon jachty na základě rozměrů.	Pro každou jachtu je uvedeno šest funkcí.	308	Text	Regrese	2013	R. Lopez
Datová sada Selhání spuštění robota	5 datových sad, které se soustředí na selhání robotů při provádění běžných úkolů.	Funkce s celočíselnou hodnotou, jako je točivý moment a další měření senzorů.	463	Text	Klasifikace	1999	L. Seabra a kol.
Datová sada Pittsburgh Bridges	Popis konstrukce je uveden z hlediska několika vlastností různých mostů.	Jsou uvedeny různé funkce mostu.	108	Text	Klasifikace	1990	Y. Reich a kol.
Automobilová datová sada	Údaje o automobilech, jejich pojistném riziku a jejich normalizovaných ztrátách.	Extrahované funkce auta.	205	Text	Regrese	1987	J. Schimmer a kol.
Automatická datová sada MPG	Data MPG pro automobily.	Je uvedeno osm funkcí každého vozu.	398	Text	Regrese	1993	Univerzita Carnegie Mellon
Datová sada o energetické účinnosti	Požadavky na vytápění a chlazení dané funkcí parametrů budovy.	Uvedené parametry budovy.	768	Text	Klasifikace, regrese	2012	A. Xifara a kol.
Datový soubor s vlastním hlukem profilu křídla	Série aerodynamických a akustických testů dvou a trojrozměrných profilů lopatek křídla.	Jsou uvedeny údaje o frekvenci, úhlu útoku atd.	1503	Text	Regrese	2014	R. Lopez
Datová sada O-kroužků raketoplánu Challenger USA	Pokuste se předpovědět problémy s O-kroužkem vzhledem k minulým datům Challengeru.	U každého letu je uvedeno několik funkcí, například teplota spuštění.	23	Text	Regrese	1993	D. Draper a kol.
Datová sada Statlog (Shuttle)	Datové sady raketoplánů NASA.	Je uvedeno devět funkcí.	58 000	Text	Klasifikace	2002	NASA

Astronomie

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Sopky na Venuši - experimentální datový soubor JARtool	Snímky Venuše vrácené kosmickou lodí Magellan.	Obrázky jsou označeny lidmi.	nedáno	snímky	Klasifikace	1991	M. Burl
Datová sada MAGIC Gamma Telescope	Monte Carlo generovalo vysokoenergetické gama částice.	Mnoho funkcí extrahovaných ze simulací.	19 020	Text	Klasifikace	2007	R. Bock
Datová sada sluneční erupce	Měření počtu určitých typů slunečních erupcí vyskytujících se za 24 hodin.	Je dáno mnoho funkcí specifických pro sluneční erupci.	1389	Text	Regrese, klasifikace	1989	G. Bradshaw

Věda o Zemi

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Sopky světa	Údaje o sopečné erupci pro všechny známé sopečné události na Zemi.	Jsou uvedeny detaily jako region, subregion, tektonické nastavení, dominantní typ horniny.	1535	Text	Regrese, klasifikace	2013	E. Venzke a kol.
Datová sada seismických nárazů	Seismické aktivity z uhelného dolu.	Seizmická aktivita byla klasifikována jako nebezpečná nebo ne.	2584	Text	Klasifikace	2013	M. Sikora a kol.
KAMELY -US	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	671	CSV, Text, Shapefile	Regrese	2017	N. Addor a kol. / A. Newman a kol.
CAMELS-Chile	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	516	CSV, Text, Shapefile	Regrese	2018	C. Alvarez-Garreton a kol.
KAMELY-Brazílie	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	897	CSV, Text, Shapefile	Regrese	2020	V. Chagas a kol.
CAMELS-GB	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	671	CSV, Text, Shapefile	Regrese	2020	G. Coxon a kol.
CAMELS-Austrálie	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	222	CSV, Text, Shapefile	Regrese	2021	K. Fowler a kol.
LamaH -CE	Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy	viz Reference	859	CSV, Text, Shapefile	Regrese	2021	C. Klingler a kol.

Jiné fyzické

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada pevnosti v tlaku v betonu	Datový soubor vlastností betonu a pevnosti v tlaku.	Pro každý vzorek je uvedeno devět funkcí.	1030	Text	Regrese	2007	Ano
Datová sada pro zkoušku propadu betonu	Průtok betonu je dán vlastnostmi.	Vlastnosti daného betonu, jako je popílek, voda atd.	103	Text	Regrese	2009	Ano
Datová sada pižma	Předpovězte, zda molekula, vzhledem k vlastnostem, bude pižmo nebo ne-pižmo.	Pro každou molekulu je uvedeno 168 rysů.	6598	Text	Klasifikace	1994	Arris Pharmaceutical Corp.
Datová sada poruch ocelových plechů	Ocelové desky 7 různých typů.	Pro každý vzorek je uvedeno 27 funkcí.	1941	Text	Klasifikace	2010	Centrum výzkumu Semeion

Biologická data

Datové sady z biologických systémů.

Člověk

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Databáze EEG	Studie zkoumající koreláty EEG genetické predispozice k alkoholismu.	Měření ze 64 elektrod umístěných na pokožce hlavy vzorkováno při 256 Hz (epocha 3,9 ms) po dobu 1 sekundy.	122	Text	Klasifikace	1999	H. Begleiter
Datová sada rozhraní P300	Data od devíti subjektů byla shromážděna pomocí rozhraní mozek-počítač na bázi P300 pro zdravotně postižené subjekty.	Rozdělte do čtyř relací pro každý předmět. Zadán kód MATLAB .	1224	Text	Klasifikace	2008	U. Hoffman a kol.
Sada údajů o srdečních chorobách	Přisuzováno pacientům s onemocněním srdce i bez něj.	Pro každého pacienta je uvedeno 75 atributů s některými chybějícími hodnotami.	303	Text	Klasifikace	1988	A. Janosi a kol.
Datová sada rakoviny prsu ve Wisconsinu (diagnostická)	Datový soubor vlastností prsních hmot. Diagnózy jsou stanoveny lékařem.	Pro každý vzorek je uvedeno 10 funkcí.	569	Text	Klasifikace	1995	W. Wolberg a kol.
Národní průzkum užívání drog a zdraví	Rozsáhlý průzkum zdraví a užívání drog ve Spojených státech.	Žádný.	55,268	Text	Klasifikace, regrese	2012	Ministerstvo zdravotnictví a sociálních služeb USA
Datová sada rakoviny plic	Datový soubor rakoviny plic bez definic atributů	Pro každý případ je uvedeno 56 funkcí	32	Text	Klasifikace	1992	Z. Hong a kol.
Datová sada arytmie	Údaje pro skupinu pacientů, z nichž někteří mají srdeční arytmii.	276 funkcí pro každou instanci.	452	Text	Klasifikace	1998	H. Altay a kol.
Diabetes 130-americké nemocnice pro roky 1999–2008 Dataset	9 let údajů o zpětném přebírání ve 130 amerických nemocnicích pro pacienty s diabetem.	Je uvedeno mnoho funkcí každého zpětného převzetí.	100 000	Text	Klasifikace, shlukování	2014	J. Clore a kol.
Datová sada Diabetická retinopatie Debrecen	Funkce extrahované z obrazů očí s diabetickou retinopatií i bez ní.	Extrahované funkce a diagnostikované podmínky.	1151	Text	Klasifikace	2014	B. Antal a kol.
Datová sada pro diabetickou retinopatii Messidor	Metody hodnocení technik segmentace a indexování v oblasti sítnicové oftalmologie (MESSIDOR)	Vyznačuje se stupněm retinopatie a rizikem makulárního edému	1200	Obrázky, text	Klasifikace, segmentace	2008	Projekt Messidor
Datová sada pro poruchy jater	Údaje pro osoby s poruchou jater.	Pro každého pacienta je uvedeno sedm biologických rysů.	345	Text	Klasifikace	1990	Bupa Medical Research Ltd.
Datová sada onemocnění štítné žlázy	10 databází údajů o pacientech s onemocněním štítné žlázy.	Žádný.	7200	Text	Klasifikace	1987	R. Quinlan
Datová sada Mesothelioma	Mezoteliomová data o pacientech.	Je uveden velký počet funkcí, včetně expozice azbestu.	324	Text	Klasifikace	2016	A. Tanrikulu a kol.
Datová sada odhadu Pose na základě Parkinsonovy vize	2D odhady lidské pózy u Parkinsonových pacientů provádějících různé úkoly.	Chvění fotoaparátu bylo z trajektorií odstraněno.	134	Text	Klasifikace, regrese	2017	M. Li a kol.
Datová sada KEGG Metabolic Reaction Network (Unirected)	Síť metabolických cest. Je uvedena reakční síť a relační síť .	Jsou uvedeny podrobné funkce pro každý síťový uzel a cestu.	65 554	Text	Klasifikace, shlukování, regrese	2011	M. Naeem a kol.
Modifikovaná datová sada pro analýzu morfologie lidských spermií (MHSMA)	Obrázky lidských spermií od 235 pacientů s neplodností mužského faktoru, označené pro normální nebo abnormální akrozom spermatu, hlavu, vakuolu a ocas.	Oříznuto kolem hlavy jednoho spermatu. Zvětšení normalizováno. Byly vytvořeny tréninkové, ověřovací a testovací skupiny.	1540	.npy soubory	Klasifikace	2019	S. Javadi a SA Mirroshandel

Zvíře

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Sada dat Abalone	Fyzikální měření Abalone. Rovněž jsou uvedeny vzorce počasí a poloha.	Žádný.	4177	Text	Regrese	1995	Marine Research Laboratories - Taroona
Zoo datová sada	Umělý datový soubor zahrnující 7 tříd zvířat.	Zvířata jsou zařazena do 7 kategorií a u každé jsou uvedeny vlastnosti.	101	Text	Klasifikace	1990	R. Forsyth
Datová sada Demospongiae	Údaje o mořských houbách.	503 houbiček ve třídě Demosponge je popsáno různými funkcemi.	503	Text	Klasifikace	2010	E. Armengol a kol.
Datová sada genových sekvencí spojovacích spojů	Primární sestřihové genové sekvence (DNA) s přidruženou teorií nedokonalé domény.	Žádný.	3190	Text	Klasifikace	1992	G. Towell a kol.
Datová sada pro expresi myších proteinů	Hladiny exprese 77 proteinů měřené v mozkové kůře myší.	Žádný.	1080	Text	Klasifikace, shlukování	2015	C. Higuera a kol.

Houby

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Odkaz	Tvůrce
Datová sada hub UCI	Atributy a klasifikace hub.	Je dáno mnoho vlastností každé houby.	8124	Text	Klasifikace	1987		J. Schlimmer
Datová sada sekundárních hub	Atributy a klasifikace hub	Simulovaná data z větších a realističtějších primárních záznamů o houbách. Plně reprodukovatelné.	61069	Text	Klasifikace	2020		D. Wagner a kol.

Rostlina

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datový soubor lesních požárů	Lesní požáry a jejich vlastnosti.	Je extrahováno 13 vlastností každého ohně.	517	Text	Regrese	2008	P. Cortez a kol.
Datová sada Iris	Tři druhy rostlin duhovky jsou popsány 4 různými atributy.	Žádný.	150	Text	Klasifikace	1936	R. Fishera
Dataset listů rostlinných druhů	Šestnáct vzorků listů, každý ze sta druhů rostlin.	Jsou uvedeny deskriptory tvaru, okraje s jemným měřítkem a histogramy textur.	1600	Text	Klasifikace	2012	J. Cope a kol.
Sójová datová sada	Databáze nemocných rostlin sóji.	Pro každou rostlinu je uvedeno 35 funkcí. Rostliny jsou zařazeny do 19 kategorií.	307	Text	Klasifikace	1988	R. Michalski a kol.
Sada dat semen	Měření geometrických vlastností jader patřících do tří různých odrůd pšenice.	Žádný.	210	Text	Klasifikace, shlukování	2012	Charytanowicz a kol.
Datový soubor Covertype	Data pro predikci typu lesního porostu výhradně z kartografických proměnných.	Je dáno mnoho geografických rysů.	581 012	Text	Klasifikace	1998	J. Blackard a kol.
Datová sada signální sítě Abscisic Acid	Data pro signalizační síť závodu. Cílem je určit sadu pravidel, která řídí síť.	Žádný.	300	Text	Kauzální objev	2008	J. Jenkens a kol.
Datová sada Folio	20 fotografií listů pro každý z 32 druhů.	Žádný.	637	Obrázky, text	Klasifikace, shlukování	2015	T. Munisami a kol.
Datová sada Oxford Flower	Datová sada 17 kategorií květin.	Trénujte/testujte rozdělení, označené obrázky,	1360	Obrázky, text	Klasifikace	2006	ME Nilsback a kol.
Dataset rostlinných sazenic	Datový soubor 12 kategorií sazenic rostlin.	Označené obrázky, segmentované obrázky,	5544	snímky	Klasifikace, detekce	2017	Giselsson a kol.
Datová sada Fruits 360	Databáze s obrázky 120 ovoce a zeleniny.	100 x 100 pixelů, bílé pozadí.	82213	Obrázky (jpg)	Klasifikace	2017–2019	Mihai Oltean, Horea Muresan

Mikrob

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada Ecoli	Lokalizace proteinů.	Jsou uvedeny různé vlastnosti míst lokalizace proteinů.	336	Text	Klasifikace	1996	K. Nakai a kol.
Datová sada MicroMass	Identifikace mikroorganismů z údajů hmotnostní spektrometrie.	Různé funkce hmotnostního spektrometru.	931	Text	Klasifikace	2013	P. Mahe a kol.
Kvasinková datová sada	Predikce buněčných lokalizačních míst proteinů.	Pro každou instanci je uvedeno osm funkcí.	1484	Text	Klasifikace	1996	K. Nakai a kol.

Objev drog

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Odkaz	Tvůrce
Datová sada Tox21	Predikce výsledku biologických testů.	Jsou uvedeny chemické deskriptory molekul.	12707	Text	Klasifikace	2016		A. Mayr a kol.

Údaje o anomáliích

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Benchmark anomálie Numenta (NAB)	Data jsou uspořádaná, časově označená, metriky s jednou hodnotou. Pokud není uvedeno jinak, všechny datové soubory obsahují anomálie.	Žádný	50+ souborů	Hodnoty oddělené čárkami	Detekce anomálií	2016 (průběžně aktualizováno)	Numenta
Skoltech Anomaly Benchmark (SKAB)	Každý soubor představuje jeden experiment a obsahuje jednu anomálii. Datová sada představuje vícerozměrnou časovou řadu shromážděnou ze senzorů nainstalovaných na testovacím stole.	Existují dvě značky pro problémy s detekcí odlehlých hodnot (bodové anomálie) a detekce změnových bodů (kolektivní anomálie)	30+ souborů (v0.9)	Hodnoty oddělené čárkami	Detekce anomálií	2020 (průběžně aktualizováno)	Iurii D. Katser a Vyacheslav O. Kozitsin
O vyhodnocení detekce odlehlých hodnot bez dozoru: Opatření, datové sady a empirická studie	Většina datových souborů je upravena z dat úložiště UCI Machine Learning Repository, některé jsou shromážděny z literatury.	ošetřeno pro chybějící hodnoty, pouze číselné atributy, různá procenta anomálií, popisky	1000+ souborů	ARFF	Detekce anomálií	2016 (případně aktualizováno o nové datové sady a/nebo výsledky)	Campos a kol.

Údaje pro zodpovězení otázek

Tato část obsahuje datové sady, které se zabývají strukturovanými daty.

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada DBpedia Neural Question Answering (DBNQA)	Velká sbírka Question to SPARQL speciálně navržená pro Open Domain Neural Question Answering přes databázi znalostí DBpedia.	Tato datová sada obsahuje velkou sbírku šablon Open Neural SPARQL a instancí pro školení strojů Neural SPARQL; bylo předzpracováno poloautomatickými anotačními nástroji a také třemi odborníky na SPARQL.	894 499	Páry dotaz-dotaz	Odpověď na otázku	2018	Hartmann, Soru a Marx a kol.
Datová sada pro vietnamské otázky (UIT-ViQuAD)	Velká sbírka vietnamských otázek pro hodnocení modelů MRC.	Tento soubor dat obsahuje více než 23 000 párů otázek a odpovědí generovaných lidmi na základě 5 109 pasáží 174 vietnamských článků z Wikipedie.	23,074	Dvojice otázek a odpovědí	Odpověď na otázku	2020	Nguyen a kol.
Vietnamský korpus pro strojové čtení s vícenásobným výběrem (ViMMRC)	Sbírka vietnamských otázek s výběrem odpovědí pro hodnocení modelů MRC.	Tento korpus obsahuje 2783 vietnamských otázek s možností výběru z více odpovědí.	2 783	Dvojice otázek a odpovědí	Odpovídání na otázky/porozumění strojovému čtení	2020	Nguyen a kol.

Vícerozměrná data

Datové sady sestávající z řad pozorování a sloupců atributů charakterizujících tato pozorování. Obvykle se používá pro regresní analýzu nebo klasifikaci, ale lze použít i jiné typy algoritmů. Tato část obsahuje datové sady, které se nehodí do výše uvedených kategorií.

Finanční

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Dow Jonesův index	Týdenní údaje o zásobách z prvního a druhého čtvrtletí roku 2011.	Zahrnuty jsou vypočítané hodnoty, například procentuální změna a zpoždění.	750	Hodnoty oddělené čárkami	Klasifikace, regrese, časové řady	2014	M. Brown a kol.
Statlog (australské schválení úvěru)	Žádosti o kreditní kartu jsou buď přijaty, nebo zamítnuty, a atributy aplikace.	Názvy atributů budou odstraněny stejně jako identifikační informace. Faktory byly znovu označeny.	690	Hodnoty oddělené čárkami	Klasifikace	1987	R. Quinlan
Údaje aukce eBay	Údaje o aukcích z různých objektů eBay.com z aukcí různých délek	Obsahuje všechny nabídky, ID uchazeče, časy nabídek a otevírací ceny.	~ 550	Text	Regrese, klasifikace	2012	G. Shmueli a kol.
Statlog (německé úvěrové údaje)	Binární klasifikace kreditu na „dobré“ nebo „špatné“ s mnoha funkcemi	U každé osoby jsou uvedeny různé finanční vlastnosti.	690	Text	Klasifikace	1994	H. Hofmann
Bankovní marketingová datová sada	Data z velké marketingové kampaně realizované velkou bankou.	Je uvedeno mnoho atributů kontaktovaných klientů. Je -li uveden také klient, který se upsal bance.	45,211	Text	Klasifikace	2012	S. Moro a kol.
Dataset Istanbulské burzy cenných papírů	Několik akciových indexů bylo sledováno téměř dva roky.	Žádný.	536	Text	Klasifikace, regrese	2013	O. Akbilgic
Výchozí klienti kreditních karet	Údaje o úvěrovém selhání pro tchajwanské věřitele.	Pro každý účet jsou uvedeny různé funkce.	30 000	Text	Klasifikace	2016	Ano

Počasí

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Cloudová datová sada	Data o 1024 různých oblacích.	Extrahované funkce obrázku.	1024	Text	Klasifikace, shlukování	1989	P. Collard
Datová sada El Nino	Oceánografické a povrchové meteorologické údaje odebrané ze série bójí rozmístěných po celém rovníkovém Pacifiku.	Na každé bóji se měří 12 atributů počasí.	178080	Text	Regrese	1999	Pacific Marine Environmental Laboratory
Datová sada sítě pro pozorování skleníkových plynů	Časové řady koncentrací skleníkových plynů v 2921 buňkách mřížky v Kalifornii vytvořené pomocí simulací počasí.	Žádný.	2921	Text	Regrese	2015	D. Lucas
Atmosférický CO2 z kontinuálních vzorků vzduchu na observatoři Mauna Loa	Průběžné vzorky vzduchu na Havaji v USA. 44 let rekordů.	Žádný.	44 let	Text	Regrese	2001	Observatoř Mauna Loa
Datová sada Ionosphere	Radarová data z ionosféry. Úkolem je klasifikovat na dobré a špatné návraty radaru.	Mnoho radarových funkcí dáno.	351	Text	Klasifikace	1989	Univerzita Johna Hopkinse
Datová sada pro detekci úrovně ozónu	Dvě datové sady úrovně přízemního ozónu.	Je dáno mnoho funkcí, včetně povětrnostních podmínek v době měření.	2536	Text	Klasifikace	2008	K. Zhang a kol.

Sčítání lidu

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Dataset pro dospělé	Data ze sčítání lidu z roku 1994 obsahující demografické rysy dospělých a jejich příjmy.	Vyčištěno a anonymizováno.	48,842	Hodnoty oddělené čárkami	Klasifikace	1996	United States Census Bureau
Příjem ze sčítání lidu (KDD)	Vážená data ze sčítání lidu z aktuálních průzkumů populace z let 1994 a 1995 .	Rozdělte do tréninkových a testovacích sad.	299 285	Hodnoty oddělené čárkami	Klasifikace	2000	United States Census Bureau
Databáze sčítání IPUMS	Data ze sčítání lidu z oblastí Los Angeles a Long Beach.	Žádný	256 932	Text	Klasifikace, regrese	1999	IPUMS
Data amerického sčítání lidu 1990	Dílčí údaje ze sčítání lidu USA v roce 1990.	Výsledky randomizované a vybrané užitečné atributy.	2 458 285	Text	Klasifikace, regrese	1990	United States Census Bureau

Tranzit

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada pro sdílení kol	Hodinový a denní počet zapůjčení kol ve velkém městě.	K dispozici je mnoho funkcí, včetně počasí, délky cesty atd.	17,389	Text	Regrese	2013	H. Fanaee-T
Data výletu taxíkem v New Yorku	Údaje o cestě pro žluté a zelené taxíky v New Yorku.	Poskytuje místa vyzvednutí a odevzdání, ceny jízdného a další podrobnosti o cestách.	6 let	Text	Klasifikace, shlukování	2015	New York City Taxi and Limousine Commission
Trajektorie taxislužby ECML PKDD	Trajektorie všech taxíků ve velkém městě.	Mnoho funkcí, včetně počátečních a koncových bodů.	1 710 671	Text	Shlukování, příčinné objevování	2015	M. Ferreira a kol.
METR-LA	Rychlost ze smyčkových detektorů na dálnici Los Angeles County.	Průměrná rychlost za 5 minut.	7 094 304 z 207 senzorů a 34 272 časových kroků	Hodnoty oddělené čárkami	Regrese, prognózy	2014	Jagadish a kol.
PeMS	Rychlost, průtok, obsazenost a další metriky ze smyčkových detektorů a dalších senzorů na dálnici státu Kalifornie, USA.	Metrika se obvykle agreguje pomocí průměru do časových kroků 5 minut.	39 000 jednotlivých detektorů, z nichž každý obsahuje roky časových řad	Hodnoty oddělené čárkami	Regrese, predikce, nowcasting, interpolace	(aktualizováno v reálném čase)	Kalifornské ministerstvo dopravy

Internet

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Webové stránky z Common Crawl 2012	Velká sbírka webových stránek a jejich propojení pomocí hypertextových odkazů	Žádný.	3,5 B	Text	shlukování, klasifikace	2013	V. Granville
Datová sada internetových reklam	Datová sada pro předpovídání, zda je daný obrázek reklama nebo ne.	Funkce kódují geometrii reklam a frází vyskytujících se v adrese URL.	3279	Text	Klasifikace	1998	N. Kushmerick
Datová sada využití internetu	Obecná demografie uživatelů internetu.	Žádný.	10 104	Text	Klasifikace, shlukování	1999	D. Cook
Datová sada URL	120 dní dat URL z velké konference.	U každé adresy URL je uvedeno mnoho funkcí.	2,396,130	Text	Klasifikace	2009	J. Ma
Datová sada webů pro phishing	Datová sada phishingových webů.	Na každém webu je uvedeno mnoho funkcí.	2456	Text	Klasifikace	2015	R. Mustafa a kol.
Online maloobchodní datová sada	Online transakce pro britského online prodejce.	Podrobnosti o každé dané transakci.	541 909	Text	Klasifikace, shlukování	2015	D. Chen
Skládání témat zdarma na jednoduché téma	Freebase je online snaha strukturovat veškeré lidské znalosti.	Témata z Freebase byla extrahována.	velký	Text	Klasifikace, shlukování	2011	Freebase
Datová sada zemědělských reklam	Text reklam na farmy z webových stránek. Je uděleno binární schválení nebo nesouhlas vlastníků obsahu.	Vypočtené řídké vektory SVMlight textových slov v reklamách.	4143	Text	Klasifikace	2011	C. Masterharm a kol.

Hry

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Datová sada pokerové ruky	5 karet ze standardního balíčku 52 karet.	Jsou uvedeny atributy každé ruky, včetně pokerových karet tvořených kartami, které obsahuje.	1 025 010	Text	Regrese, klasifikace	2007	R. Cattral
Datová sada Connect-4	Obsahuje všechny legální 8vrstvé pozice ve hře connect-4, ve kterých zatím žádný z hráčů nevyhrál a ve kterých není vynucený další tah.	Žádný.	67,557	Text	Klasifikace	1995	J. Tromp
Datová sada šachů (King-Rook vs. King)	Databáze Endgame pro White King a Rook proti Black King.	Žádný.	28,056	Text	Klasifikace	1994	M. Bain a kol.
Datová sada Chess (King-Rook vs. King-Pawn)	Král+věž proti králi+pěšci na a7.	Žádný.	3196	Text	Klasifikace	1989	R. Holte
Datová sada koncových her Tic-Tac-Toe	Binární klasifikace pro podmínky výhry v tic-tac-toe.	Žádný.	958	Text	Klasifikace	1991	D. Aha

Jiné vícerozměrné

Název datové sady	Stručný popis	Předzpracování	Instance	Formát	Výchozí úkol	Vytvořeno (aktualizováno)	Tvůrce
Sada dat bydlení	Střední domácí hodnoty Bostonu s přidruženými atributy domova a sousedství.	Žádný.	506	Text	Regrese	1993	D. Harrison a kol.
Getty slovníky	strukturovaná terminologie pro umění a další materiální kulturu, archivní materiály, vizuální náhrady a bibliografické materiály.	Žádný.	velký	Text	Klasifikace	2015	Centrum Getty
Yahoo! Úvodní stránka Dnes Modul Uživatel Klikněte na Protokol	Protokol kliknutí uživatele pro zpravodajské články zobrazené na kartě Doporučené v modulu Today na Yahoo! Přední strana.	Spojte analýzu s bilineárním modelem.	45 811 883 návštěv uživatelů	Text	Regrese, shlukování	2009	Chu a kol.
Britské oceánografické datové centrum	Biologická, chemická, fyzikální a geofyzikální data pro oceány. Sledováno 22 tisíc proměnných.	Rozličný.	22K proměnné, mnoho instancí	Text	Regrese, shlukování	2015	Britské oceánografické datové centrum
Datová sada záznamů o hlasování v Kongresu	Údaje o hlasování pro všechny zástupce USA o 16 problémech.	Kromě nezpracovaných dat o hlasování jsou k dispozici různé další funkce.	435	Text	Klasifikace	1987	J. Schlimmer
Soubor údajů o doporučení Chicaga	Záznam interakcí uživatelů se systémem doporučení Entree Chicago.	Podrobně jsou zaznamenány podrobnosti o používání aplikace každým uživatelem.	50,672	Text	Regrese, doporučení	2000	R. Burke
Benchmark pojišťovny (COIL 2000)	Informace o zákaznících pojišťovací společnosti.	Mnoho funkcí každého zákazníka a služeb, které používá.	9 000	Text	Regrese, klasifikace	2000	P. van der Putten
Dataset školky	Údaje od uchazečů do mateřských škol.	Včetně údajů o rodině žadatele a různých dalších faktorech.	12 960	Text	Klasifikace	1997	V. Rajkovic a kol.
Univerzitní datový soubor	Data popisující přisuzovaná velkému počtu univerzit.	Žádný.	285	Text	Shlukování, klasifikace	1988	S. Sounders a kol.
Datová sada centra pro transfúzi krve	Údaje ze střediska transfúze krve. Poskytuje údaje o míře návratnosti dárců, frekvenci atd.	Žádný.	748	Text	Klasifikace	2008	Ano
Zaznamenejte datovou sadu porovnávacích vzorů propojení	Velká datová sada záznamů. Úkolem je propojit příslušné záznamy dohromady.	Postup blokování byl použit k výběru pouze určitých párů záznamů.	5,749,132	Text	Klasifikace	2011	University of Mainz
Datová sada Nomao	Nomao shromažďuje data o místech z mnoha různých zdrojů. Úkolem je detekovat položky, které popisují stejné místo.	Duplikáty označené.	34,465	Text	Klasifikace	2012	Nomao Labs
Datová sada filmu	Data pro 10 000 filmů.	Pro každý film je uvedeno několik funkcí.	10 000	Text	Shlukování, klasifikace	1999	G. Wiederhold
Otevřená datová sada University Learning Analytics	Informace o studentech a jejich interakcích s virtuálním výukovým prostředím.	Žádný.	~ 30 000	Text	Klasifikace, shlukování, regrese	2015	J. Kuzilek a kol.
Záznamy z mobilního telefonu	Telekomunikační aktivita a interakce	Agregace podle buněk geografické mřížky a každých 15 minut.	velký	Text	Klasifikace, shlukování, regrese	2015	G. Barlacchi a kol.

Upravená úložiště datových sad

Jelikož datové sady přicházejí v nesčetných formátech a jejich použití může být někdy obtížné, bylo vynaloženo značné úsilí na úpravu a standardizaci formátu datových sad, aby se usnadnilo jejich použití pro výzkum strojového učení.

OpenML: Webová platforma s rozhraními Python, R, Java a dalšími API pro stahování stovek datových sad strojového učení, vyhodnocování algoritmů na datových sadách a srovnávání výkonu algoritmů s desítkami dalších algoritmů.
PMLB: Velké, kurátorské úložiště srovnávacích datových sad pro hodnocení algoritmů strojového učení pod dohledem. Poskytuje datové sady klasifikace a regrese ve standardizovaném formátu, které jsou přístupné prostřednictvím rozhraní Python API.
Metatext NLP: https://metatext.io/datasets webové úložiště spravované komunitou, obsahující téměř 1000 srovnávacích datových sad a počítání. Poskytuje mnoho úkolů od klasifikace po QA a různé jazyky od angličtiny, portugalštiny až po arabštinu.
Appen : Off the Shelf and Open Source Datasets hosted and guaranteed by the company. Těchto zdrojů biologických, obrazových, fyzických, odpovědí na otázky, signálu, zvuku, textu a videa je více než 250 a lze je aplikovat na více než 25 různých případů použití.

Languages

In other projects