Seznam datových sad pro výzkum strojového učení - List of datasets for machine-learning research

Tyto soubory dat se používají pro výzkum strojového učení a byly citovány v recenzovaných akademických časopisech. Datové sady jsou nedílnou součástí oblasti strojového učení. Zásadní pokroky v této oblasti mohou vyplývat z pokroků v algoritmech učení (jako je například hloubkové učení ), počítačovém hardwaru a, méně intuitivně, v dostupnosti vysoce kvalitních datových sad školení. Vysoce kvalitní značené tréninkové datové sady pro algoritmy strojového učení pod dohledem a částečně pod dohledem jsou obvykle obtížné a nákladné na výrobu z důvodu velkého času potřebného k označení dat. I když nemusí být označeny, může být také výroba vysoce kvalitních datových sad pro učení bez dozoru obtížná a nákladná.

Obrazová data

Datové sady sestávající hlavně z obrázků nebo videa k úkoly, jako je detekce objektů , rozpoznání obličeje , a klasifikace více štítků .

Rozpoznávání obličeje

V počítačovém vidění , byly obrazy obličejů široce používány k vývoji obličejové rozpoznávací systémy , detekce obličeje a mnoho dalších projektů, které používají obrazy obličejů.

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Aff-Wild 298 videí od 200 jednotlivců, ~ 1 250 000 ručně komentovaných obrázků: komentováno z hlediska dimenzionálního ovlivnění (valenční vzrušení); divoké prostředí; databáze barev; různá rozlišení (průměr = 640x360) detekované tváře, orientační body obličeje a anotace valenční vzrušení ~ 1 250 000 ručně komentovaných obrázků video (vizuální + zvukové modality) ovlivnit rozpoznávání (odhad valence-vzrušení) 2017 CVPR

IJCV

D. Kollias a kol.
Aff-Wild2 558 videí od 458 jednotlivců, ~ 2 800 000 ručně komentovaných obrázků: komentováno z hlediska i) kategorického afektu (7 základních výrazů: neutrální, štěstí, smutek, překvapení, strach, znechucení, hněv); ii) rozměrový vliv (valenční vzrušení); iii) akční jednotky (AU 1,2,4,6,12,15,20,25); divoké prostředí; databáze barev; různá rozlišení (průměr = 1030x630) detekované tváře, detekované a zarovnané tváře a poznámky ~ 2 800 000 ručně komentovaných obrázků video (vizuální + zvukové modality) rozpoznávání vlivů (odhad valence-vzrušení, klasifikace základních výrazů, detekce akčních jednotek) 2019 BMVC

FG

D. Kollias a kol.
FERET (technologie rozpoznávání obličeje) 11338 obrázků 1199 jednotlivců v různých pozicích a v různých časech. Žádný. 11,338 snímky Klasifikace, rozpoznávání tváří 2003 Ministerstvo obrany USA
Ryerson Audiovizuální databáze emoční řeči a písně (RAVDESS) 7 356 obrazových a zvukových záznamů od 24 profesionálních herců. 8 emocí, každá ve dvou intenzitách. Soubory označené výrazem. Hodnocení vnímání poskytlo 319 hodnotitelů. 7,356 Video, zvukové soubory Klasifikace, rozpoznávání obličejů, rozpoznávání hlasu 2018 SR Livingstone a FA Russo
SCFace Barevné obrázky tváří v různých úhlech. Umístění rysů obličeje extrahováno. Souřadnice uvedených funkcí. 4,160 Obrázky, text Klasifikace , rozpoznávání tváří 2011 M. Grgic a kol.
Databáze obličejů Yale Tváře 15 jedinců v 11 různých výrazech. Štítky výrazů. 165 snímky Rozpoznávání obličejů 1997 J. Yang a kol.
Databáze výrazů kódovaná Cohn-Kanade AU Velká databáze obrázků s popisky pro výrazy. Sledování určitých rysů obličeje. 500+ sekvencí Obrázky, text Analýza výrazu obličeje 2000 T. Kanade a kol.
Databáze výrazů obličeje JAFFE 213 snímků 7 mimiky (6 základních výrazů obličeje + 1 neutrální) od 10 japonských modelek. Obrázky jsou oříznuty do oblasti obličeje. Zahrnuje data sémantického hodnocení na štítcích emocí. 213 Obrázky, text Poznání výrazu obličeje 1998 Lyons, Kamachi, Gyoba
FaceScrub Obrázky osobností veřejného života vymazané z vyhledávání obrázků. Jméno a anotace m/f. 107,818 Obrázky, text Rozpoznávání obličejů 2014 H. Ng a kol.
Databáze obličejů BioID Obrázky tváří s vyznačenými polohami očí. Ručně nastavte polohy očí. 1521 Obrázky, text Rozpoznávání obličejů 2001 BioID
Datová sada segmentace kůže Náhodně vzorkované hodnoty barev z obrázků obličeje. B, G, R, extrahované hodnoty. 245,057 Text Segmentace, klasifikace 2012 R. Bhatt.
Bospor 3D databáze obrazů obličeje. Označeno 34 akčních jednotek a 6 výrazů; Označeno 24 obličejových orientačních bodů. 4652

Obrázky, text

Rozpoznávání obličejů, klasifikace 2008 Savran a kol.
UOY 3D-Face neutrální tvář, 5 výrazů: vztek, štěstí, smutek, zavřené oči, zvednuté obočí. Značení. 5250

Obrázky, text

Rozpoznávání obličejů, klasifikace 2004 University of York
Databáze obličejů CASIA 3D Výrazy: Vztek, úsměv, smích, překvapení, zavřené oči. Žádný. 4624

Obrázky, text

Rozpoznávání obličejů, klasifikace 2007 Ústav automatizace, Čínská akademie věd
CASIA NIR Výrazy: Hněv Znechucení Strach Štěstí Smutek Překvapení Žádný. 480 Komentované viditelné spektrum a blízké infračervené video zachycuje rychlostí 25 snímků za sekundu Rozpoznávání obličejů, klasifikace 2011 Zhao, G. a kol.
BU-3DFE neutrální tvář a 6 výrazů: hněv, štěstí, smutek, překvapení, znechucení, strach (4 úrovně). Extrahovány 3D obrázky. Žádný. 2 500 Obrázky, text Rozpoznání výrazu obličeje, klasifikace 2006 Binghamton University
Datová sada rozpoznávání tváří Grand Challenge Až 22 vzorků pro každý subjekt. Projevy: vztek, štěstí, smutek, překvapení, znechucení, nafouknutí. 3D data. Žádný. 4007 Obrázky, text Rozpoznávání obličejů, klasifikace 2004 Národní institut pro standardy a technologie
Gavabdb Až 61 vzorků pro každý subjekt. Výrazy neutrální tvář, úsměv, frontální zdůrazněný smích, frontální náhodné gesto. 3D obrázky. Žádný. 549 Obrázky, text Rozpoznávání obličejů, klasifikace 2008 Univerzita krále Juana Carlose
3D-RMA Až 100 subjektů, výrazy většinou neutrální. Několik póz také. Žádný. 9971 Obrázky, text Rozpoznávání obličejů, klasifikace 2004 Královská vojenská akademie (Belgie)
SoF 112 osob (66 mužů a 46 žen) nosí brýle za různých světelných podmínek. Sada syntetických filtrů (rozostření, okluze, šum a posterizace) s různou úrovní obtížnosti. 42 592 (2 662 původních obrázků × 16 syntetických obrázků) Obrázky, soubor Mat Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku a detekce brýlí 2017 Afifi, M. a kol.
IMDB-WIKI IMDB a Wikipedia čelí obrázkům s označením pohlaví a věku. Žádný 523,051 snímky Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku 2015 R. Rothe, R. Timofte, LV Gool

Rozpoznání akce

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada TV Human Interaction Videa z 20 různých televizních pořadů pro předpovídání sociálních akcí: podání ruky, pětka, objetí, polibek a nic. Žádný. 6 766 videoklipů videoklipy Akční predikce 2013 Patron-Perez, A. a kol.
Multimodální databáze Berkeley Human Action Database (MHAD) Záznamy jedné osoby provádějící 12 akcí Předzpracování MoCap 660 akčních vzorků 8 PhaseSpace Motion Capture, 2 stereo kamery, 4 Quad kamery, 6 akcelerometrů, 4 mikrofony Klasifikace akcí 2013 Ofli, F. a kol.
Datová sada THUMOS Velká datová sada videa pro klasifikaci akcí. Opatření klasifikovaná a označená. 45 milionů snímků videa Video, obrázky, text Klasifikace, detekce akcí 2013 Y. Jiang a kol.
MEXAction2 Datová sada videa pro lokalizaci a sledování akcí Opatření klasifikovaná a označená. 1000 Video Detekce akce 2014 Stoian a kol.

Detekce a rozpoznávání objektů

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Vizuální genom Obrázky a jejich popis 108 000 obrázky, text Popisky obrázků 2016 R. Krishna a kol.
Datová sada objektů Berkeley 3-D 849 snímků pořízených v 75 různých scénách. Je označeno asi 50 různých tříd objektů. Pole ohraničující objekty a označování. 849 označené obrázky, text Rozpoznávání objektů 2014 A. Janoch a kol.
Sada dat segmentace Berkeley a benchmarky 500 (BSDS500) 500 přirozených obrazů, výslovně rozdělených na nesouvislé vlakové, ověřovací a testovací podmnožiny + srovnávací kód. Na základě BSDS300. Každý obrázek je v průměru segmentován pěti různými subjekty. 500 Segmentované obrázky Detekce obrysů a hierarchická segmentace obrazu 2011 Kalifornská univerzita, Berkeley
Microsoft Common Objects in Context (COCO) komplexní každodenní scény běžných předmětů v jejich přirozeném kontextu. Zvýraznění, označení a klasifikace objektů do 91 typů objektů. 2 500 000 Označené obrázky, text Rozpoznávání objektů 2015 T. Lin a kol.
SUN databáze Velmi velká databáze rozpoznávání scén a objektů. Místa a objekty jsou označeny. Objekty jsou segmentovány. 131,067 Obrázky, text Rozpoznávání objektů, rozpoznávání scén 2014 J. Xiao a kol.
ImageNet Databáze obrázků s označenými objekty, která se používá ve výzvě Image Recognition Challenge ve velkém měřítku ImageNet Označené objekty, ohraničující rámečky, popisná slova, funkce SIFT 14,197,122 Obrázky, text Rozpoznávání objektů, rozpoznávání scén 2009 (2014) J. Deng a kol.
Otevřete Obrázky Velká sada obrázků s licencí CC BY 2.0 s popisky na úrovni obrázku a ohraničujícími rámečky zahrnujícími tisíce tříd. Štítky na úrovni obrázku, ohraničující rámečky 9,178,275 Obrázky, text Klasifikace, rozpoznávání objektů 2017
Datová sada pro komerční detekci TV News Channel Televizní reklamy a zpravodajství. Funkce zvuku a videa extrahované ze statických obrázků. 129 685 Text Shlukování, klasifikace 2015 P. Guha a kol.
Datová sada Statlog (Image Segmentation) Instance byly náhodně vybrány z databáze 7 venkovních snímků a ručně segmentovány, aby byla vytvořena klasifikace pro každý pixel. Spočítáno mnoho funkcí. 2310 Text Klasifikace 1990 University of Massachusetts
Caltech 101 Obrázky předmětů. Jsou vyznačeny podrobné obrysy objektů. 9146 snímky Klasifikace, rozpoznávání objektů. 2003 F. Li a kol.
Caltech-256 Velká datová sada obrázků pro klasifikaci objektů. Obrázky jsou kategorizovány a ručně tříděny. 30 607 Obrázky, text Klasifikace, detekce objektů 2007 G. Griffin a kol.
Datová sada SIFT10M Funkce SIFT datové sady Caltech-256. Rozsáhlá extrakce funkcí SIFT. 11,164,866 Text Klasifikace, detekce objektů 2016 X. Fu a kol.
LabelMe Komentované obrázky scén. Objekty načrtnuty. 187 240 Obrázky, text Klasifikace, detekce objektů 2005 Laboratoř počítačové vědy a umělé inteligence MIT
Městská datová sada Stereo videosekvence zaznamenané v pouličních scénách s anotacemi na úrovni pixelů. Metadata také zahrnuta. Segmentace a označování na úrovni pixelů 25 000 Obrázky, text Klasifikace, detekce objektů 2016 Daimler AG a kol.
Datová sada PASCAL VOC Velké množství obrázků pro klasifikační úkoly. Včetně štítku, ohraničovacího rámečku 500 000 Obrázky, text Klasifikace, detekce objektů 2010 M. Everingham a kol.
CIFAR-10 Dataset Mnoho malých obrázků s nízkým rozlišením 10 tříd objektů. Třídy označené, vytvořeny rozdělení tréninkové sady. 60 000 snímky Klasifikace 2009 A. Krizhevsky a kol.
Datová sada CIFAR-100 Stejně jako CIFAR-10 výše, ale je dáno 100 tříd objektů. Třídy označené, vytvořeny rozdělení tréninkové sady. 60 000 snímky Klasifikace 2009 A. Krizhevsky a kol.
Datová sada CINIC-10 Jednotný příspěvek CIFAR-10 a Imagenet s 10 třídami a 3 rozděleními. Větší než CIFAR-10. Třídy označené, vytvořeny školení, validace, testovací sady. 270 000 snímky Klasifikace 2018 Luke N.Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey
Móda-MNIST Databáze módních produktů podobná MNIST Třídy označené, vytvořeny rozdělení tréninkové sady. 60 000 snímky Klasifikace 2017 Zalando SE
ne MNIST Některá veřejně dostupná písma a extrahovaná glyfy z nich vytvořila datovou sadu podobnou MNIST. Existuje 10 tříd s písmeny AJ převzatými z různých písem. Třídy označené, vytvořeny rozdělení tréninkové sady. 500 000 snímky Klasifikace 2011 Jaroslav Bulatov
Datová sada německých referenčních hodnot pro detekci dopravních značek Obrázky vozidel dopravních značek na německých silnicích. Tyto značky odpovídají normám OSN, a proto jsou stejné jako v jiných zemích. Značky ručně označené 900 snímky Klasifikace 2013 S Houben a kol.
Datová sada KITTI Vision Benchmark Autonomní vozidla projíždějící městem střední velikosti zachytila ​​snímky různých oblastí pomocí kamer a laserových skenerů. Mnoho benchmarků extrahovaných z dat. > 100 GB dat Obrázky, text Klasifikace, detekce objektů 2012 Geiger a kol.
Datová sada Linnaeus 5 Obrázky 5 tříd předmětů. Třídy označené, vytvořeny rozdělení tréninkové sady. 8000 snímky Klasifikace 2017 Chaladze a Kalatozishvili
FieldSAFE Multimodální datová sada pro detekci překážek v zemědělství včetně stereokamery, termokamery, webové kamery, 360stupňové kamery, lidaru, radaru a přesné lokalizace. Třídy označené geograficky. > 400 GB dat Obrázky a 3D mračna bodů Klasifikace, detekce objektů, lokalizace objektů 2017 M. Kragh a kol.
11K rukou 11 076 ručních obrázků (1 600 x 1 200 pixelů) 190 subjektů různého věku od 18 do 75 let pro rozpoznávání pohlaví a biometrickou identifikaci. Žádný 11 076 ručních obrázků Obrázky a soubory štítků (.mat, .txt a .csv) Rozpoznávání pohlaví a biometrická identifikace 2017 M Afifi
CORe50 Speciálně navržená pro kontinuální/celoživotní učení a rozpoznávání objektů je sbírka více než 500 videí (30 snímků za sekundu) z 50 domácích předmětů patřících do 10 různých kategorií. Třídy označené, tréninkové sady rozděleny vytvořené na základě 3-way, multi-runs benchmarku. 164 866 snímků RBG-D obrázky (.png nebo .pkl)

a soubory štítků (.pkl, .txt, .tsv)

Klasifikace, rozpoznávání objektů 2017 V. Lomonaco a D. Maltoni
OpenLORIS-Object Datová sada Lifelong/Continuous Robotic Vision (OpenLORIS-Object) shromážděná skutečnými roboty s několika senzory s vysokým rozlišením obsahuje kolekci 121 objektových instancí (1. verze datové sady, 40 kategorií předmětů denní potřeby pod 20 scén). Datová sada důsledně zohledňuje 4 faktory prostředí v různých scénách, včetně osvětlení, okluze, velikosti pixelu objektu a nepořádku, a explicitně definuje úrovně obtížnosti každého faktoru. Třídy označené, tréninkové/validační/testovací rozdělené sady vytvořené srovnávacími skripty. 1 106 424 snímků RBG-D obrázky (.png a .pkl)

a (.pkl) soubory štítků

Klasifikace, celoživotní rozpoznávání objektů, robotická vize 2019 Q. Ona a kol.
Datový soubor THz a termální video Tato multispektrální datová sada obsahuje terahertzová, termální, vizuální, blízká infračervená a trojrozměrná videa předmětů skrytých pod oblečením lidí. K dispozici jsou 3D vyhledávací tabulky, které vám umožňují promítat obrázky do 3D mračen bodů. Více než 20 videí. Délka každého videa je přibližně 85 sekund (přibližně 345 snímků). AP2J Experimenty s detekcí skrytých objektů 2019 Alexej A. Morozov a Olga S. Sushkova

Rukopis a rozpoznávání znaků

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Dataset umělých postav Uměle generovaná data popisující strukturu 10 velkých anglických písmen. Souřadnice čar nakreslených jako celá čísla. Různé další funkce. 6000 Text Rozpoznávání rukopisu, klasifikace 1992 H. Guvenir a kol.
Datová sada dopisů Velká písmena tištěná písmena. Ze všech obrázků je extrahováno 17 funkcí. 20 000 Text OCR, klasifikace 1991 D. Slate a kol.
CASIA-HWDB Offline ručně psaná databáze čínských znaků . 3755 tříd ve znakové sadě GB 2312 . Obrázky ve stupních šedi s pixely na pozadí označenými jako 255. 1,172,907 Obrázky, text Rozpoznávání rukopisu, klasifikace 2009 CASIA
CASIA-OLHWDB Online ručně psaná databáze čínských znaků shromážděná pomocí pera Anoto na papíře. 3755 tříd ve znakové sadě GB 2312 . Poskytuje sekvence souřadnic tahů. 1,174,364 Obrázky, text Rozpoznávání rukopisu, klasifikace 2009 CASIA
Datová sada trajektorií znaků Označené vzorky trajektorií hrotu pera pro lidi, kteří píší jednoduché znaky. 3-dimenzionální matice trajektorie rychlosti hrotu pera pro každý vzorek 2858 Text Rozpoznávání rukopisu, klasifikace 2008 B. Williams
Datová sada Chars74K Rozpoznávání znaků v přirozených obrazech symbolů používaných v angličtině a kannadštině 74 107 Rozpoznávání znaků, rozpoznávání rukopisu, OCR, klasifikace 2009 T. de Campos
Datová sada znaků UJI Pen Izolované ručně psané znaky Zadány souřadnice souřadnic polohy pera při psaní znaků. 11 640 Text Rozpoznávání rukopisu, klasifikace 2009 F. Prat a kol.
Datová sada Gisette Ukázky rukopisu z často zaměňovaných 4 a 9 postav. Funkce extrahované z obrázků, rozdělené na vlak/test, ručně psané obrázky normalizované podle velikosti. 13 500 Obrázky, text Rozpoznávání rukopisu, klasifikace 2003 Yann LeCun a kol.
Datová sada Omniglot 1623 různých ručně psaných znaků z 50 různých abeced. Ručně značeno. 38 300 Obrázky, text, tahy Klasifikace, jednorázové učení 2015 Americká asociace pro rozvoj vědy
Databáze MNIST Databáze ručně psaných číslic. Ručně značeno. 60 000 Obrázky, text Klasifikace 1998 Národní institut pro standardy a technologie
Optické rozpoznávání datové sady ručně psaných číslic Normalizované bitmapy ručně psaných dat. Velikost normalizována a mapována na bitmapy. 5620 Obrázky, text Rozpoznávání rukopisu, klasifikace 1998 E. Alpaydin a kol.
Rozpoznávání datové sady ručně psaných číslic perem Ručně psané číslice na elektronickém peru-tabletu. Vektory funkcí extrahované tak, aby byly rovnoměrně rozmístěny. 10,992 Obrázky, text Rozpoznávání rukopisu, klasifikace 1998 E. Alpaydin a kol.
Datová sada ručně psaných číslic Semeion Ručně psané číslice od 80 lidí. Všechny ručně psané číslice byly normalizovány pro velikost a mapovány do stejné mřížky. 1593 Obrázky, text Rozpoznávání rukopisu, klasifikace 2008 T. Srl
HASYv2 Ručně psané matematické symboly Všechny symboly jsou vycentrovány a mají velikost 32 x 32 pixelů. 168233 Obrázky, text Klasifikace 2017 Martin Thoma
Hlučná ručně psaná Bangla datová sada Obsahuje ručně psaný číselný soubor dat (10 tříd) a základní znakový soubor dat (50 tříd), každý datový soubor má tři typy šumu: bílý gaussovský, pohybové rozostření a snížený kontrast. Všechny obrázky jsou vycentrovány a mají velikost 32x32. Datová sada čísel:

23330,

Datová sada znaků:

76 000

Snímky,

text

Rozpoznávání rukopisu,

klasifikace

2017 M. Karki a kol.

Letecké snímky

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada segmentace leteckých snímků 80 leteckých snímků s vysokým rozlišením s prostorovým rozlišením od 0,3 do 1,0. Obrázky ručně segmentovány. 80 snímky Letecká klasifikace, detekce objektů 2013 J. Yuan a kol.
Sada dat KIT AIS Několik označených souborů školení a vyhodnocení leteckých snímků davů. Obrázky ručně označené tak, aby ukazovaly cesty jednotlivců davy. ~ 150 Obrázky s cestami Sledování lidí, letecké sledování 2012 M. Butenuth a kol.
Datová sada Wilt Data dálkového průzkumu nemocných stromů a jiné krajinné pokrývky. Extrahovány různé funkce. 4899 snímky Klasifikace, detekce leteckých objektů 2014 B. Johnson
Datová sada MASATI Námořní scény optických leteckých snímků z viditelného spektra. Obsahuje barevné obrázky v dynamickém mořském prostředí, každý obrázek může obsahovat jeden nebo více cílů v různých povětrnostních a světelných podmínkách. Pole ohraničující objekty a označování. 7389 snímky Klasifikace, detekce leteckých objektů 2018 AJ. Gallego a kol.
Datová sada mapování typu lesa Satelitní snímky lesů v Japonsku. Extrahovaná pásma vlnových délek obrazu. 326 Text Klasifikace 2015 B. Johnson
Sada údajů o výzkumu režijních snímků Komentované snímky nad hlavou. Obrázky s více objekty. Více než 30 anotací a více než 60 statistik, které popisují cíl v kontextu obrázku. 1000 Obrázky, text Klasifikace 2009 F. Tanner a kol.
SpaceNet SpaceNet je korpus komerčních satelitních snímků a označených tréninkových dat. Soubory GeoTiff a GeoJSON obsahující stopy budov. > 17533 snímky Klasifikace, identifikace objektů 2017 DigitalGlobe, Inc.
Datová sada UC Merced Land Use Tyto obrázky byly ručně extrahovány z velkých snímků ze sbírky snímků USGS National Map Urban Area Imagery pro různé městské oblasti v USA. Jedná se o datový soubor 21 stupňů využití krajiny určený pro výzkumné účely. Pro každou třídu je 100 obrázků. 2100 Obrazové čipy 256 x 256, 30 cm (1 stopa) GSD Klasifikace krajinného pokryvu 2010 Yi Yang a Shawn Newsam
Datová sada SAT-4 ve vzduchu Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP). SAT-4 má čtyři široké třídy krajinného pokryvu, zahrnuje neplodnou půdu, stromy, louky a třídu, která se skládá ze všech tříd krajinného pokryvu jiných než výše uvedené tři. 500 000 snímky Klasifikace 2015 S. Basu a kol.
Datová sada SAT-6 ve vzduchu Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP). SAT-6 má šest širokých tříd krajinných pokryvů, zahrnuje neplodnou půdu, stromy, louky, silnice, budovy a vodní plochy. 405 000 snímky Klasifikace 2015 S. Basu a kol.

Další obrázky

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada SUPATLANTIQUE Obrázky naskenovaných oficiálních dokumentů a dokumentů Wikipedie Žádný 4908 TIFF/pdf Identifikace zdrojového zařízení, detekce padělání, klasifikace, .. 2020 C. Ben Rabah a kol.
Hustotní funkční teorie kvantové simulace grafenu Značené obrázky surového vstupu do simulace grafenu Nezpracovaná data (ve formátu HDF5) a výstupní štítky z kvantové simulace teorie funkční hustoty 60744 testovacích a 501473 tréninkových souborů Označené obrázky Regrese 2019 K. Mills & I. Tamblyn
Kvantové simulace elektronu v dvojrozměrné potenciální jamce Značené obrázky surového vstupu do simulace 2d kvantové mechaniky Nezpracovaná data (ve formátu HDF5) a výstupní popisky z kvantové simulace 1,3 milionu obrázků Označené obrázky Regrese 2017 K. Mills, MA Spanner a I. Tamblyn
Datová sada MPII o aktivitách vaření Videa a obrázky z různých aktivit vaření. Cesty a směry aktivit, popisky, jemnozrnné označení pohybu, třída aktivity, extrakce a označování statických obrázků. 881 755 snímků Označené video, obrázky, text Klasifikace 2012 M. Rohrbach a kol.
Datová sada FAMOS 5 000 unikátních mikrostruktur, všechny vzorky byly získány třikrát dvěma různými kamerami. Původní soubory PNG, seřazené podle kamery a poté podle akvizice. Datové soubory MATLAB s jedním 16384 krát 5 000 matic na kameru na akvizici. 30 000 Obrázky a soubory .mat Ověření 2012 S. Voloshynovskiy, et al.
Datová sada PharmaPack 1 000 unikátních tříd s 54 obrázky na třídu. Značení tříd, mnoho místních deskriptorů, jako je SIFT a aKaZE, a lokální agreatory, jako je Fisher Vector (FV). 54 000 Obrázky a soubory .mat Klasifikace jemných zrn 2017 O. Taran a S. Rezaeifar, et al.
Datová sada Stanford Dogs Obrázky 120 plemen psů z celého světa. K dispozici jsou tréninkové/testovací rozdělení a anotace ImageNet. 20 580 Obrázky, text Klasifikace jemných zrn 2011 A. Khosla a kol.
Datová sada StanfordExtra 2D klíčové body a segmentace pro datovou sadu Stanford Dogs. K dispozici jsou 2D klíčové body a segmentace. 12,035 Označené obrázky 3D rekonstrukce/odhad pozice 2020 B. Biggs a kol.
Datová sada mazlíčků Oxford-IIIT 37 kategorií mazlíčků se zhruba 200 obrázky každého z nich. Plemeno označené, těsné ohraničovací pole, segmentace popředí a pozadí. ~ 7 400 Obrázky, text Klasifikace, detekce objektů 2012 O. Parkhi a kol.
Datová sada funkcí Corel Image Databáze obrázků s extrahovanými funkcemi. Mnoho funkcí včetně barevného histogramu, textury souběžného výskytu a barevných momentů, 68 040 Text Klasifikace, detekce objektů 1999 M. Ortega-Bindenberger a kol.
Datová sada online video charakteristik a času překódování. Časy překódování pro různá různá videa a vlastnosti videa. Uvedené funkce videa. 168,286 Text Regrese 2015 T. Deneke a kol.
Datová sada Microsoft Sequential Image Narrative Dataset (SIND) Datová sada pro sekvenční vidění do jazyka Ke každé fotografii je uveden popisný popisek a vyprávění a fotografie jsou seřazeny v sekvencích 81,743 Obrázky, text Vizuální vyprávění 2016 Microsoft Research
Datová sada Caltech-UCSD Birds-200-2011 Velká datová sada obrázků ptáků. Umístění dílů pro ptáky, ohraničovací rámečky, zadáno 312 binárních atributů 11 788 Obrázky, text Klasifikace 2011 C. Wah a kol.
YouTube-8 mil Velká a různorodá datová sada označených videí ID videa na YouTube a související štítky z různorodého slovníku 4800 vizuálních entit 8 milionů Video, text Klasifikace videa 2016 S. Abu-El-Haija a kol.
YFCC100M Velká a různorodá označená datová sada obrázků a videí Videa a obrázky na Flickru a související popis, názvy, tagy a další metadata (například EXIF ​​a geotagy) 100 miliónů Video, obrázek, text Klasifikace videa a obrazu 2016 B. Thomee a kol.
Diskrétní LIRIS-ACCEDE Krátká videa komentovaná valencí a vzrušením. Štítky valence a vzrušení. 9800 Video Detekce emocí videa 2015 Y. Baveye a kol.
Nepřetržitý LIRIS-ACCEDE Dlouhá videa komentovaná valencí a vzrušením a zároveň shromažďující galvanickou reakci na kůži. Štítky valence a vzrušení. 30 Video Detekce emocí videa 2015 Y. Baveye a kol.
MediaEval LIRIS-ACCEDE Rozšíření Discrete LIRIS-ACCEDE včetně anotací úrovní násilí ve filmech. Štítky násilí, valence a vzrušení. 10900 Video Detekce emocí videa 2015 Y. Baveye a kol.
Leeds Sports Pose Kloubové anotace lidské pózy ve 2 000 přirozených sportovních snímcích z Flickru. Hrubý výřez kolem jedné zajímavé osoby se 14 společnými štítky 2000 Obrázky plus štítky souborů .mat Odhad lidské pózy 2010 S. Johnson a M. Everingham
Rozšířený trénink Leeds Sports Pose Kloubové anotace lidské pózy na 10 000 přírodních sportovních snímků z Flickru. 14 společných štítků prostřednictvím crowdsourcingu 10 000 Obrázky plus štítky souborů .mat Odhad lidské pózy 2011 S. Johnson a M. Everingham
Datová sada MCQ 6 různých skutečných zkoušek založených na více možnostech (735 odpovědních listů a 33 540 odpovědních políček) k hodnocení technik a systémů počítačového vidění vyvinutých pro systémy hodnocení testů s výběrem odpovědí. Žádný 735 odpovědí a 33 540 odpovědí Obrázky a popisky souborů .mat Vývoj systémů pro hodnocení testů s výběrem odpovědí 2017 Afifi, M. a kol.
Sledovací videa Skutečná sledovací videa pokrývají velkou dobu sledování (7 dní po 24 hodinách). Žádný 19 sledovacích videí (7 dní po 24 hodinách). Videa Komprese dat 2016 Taj-Eddin, IATF a kol.
LILA BC Značená informační knihovna Alexandrie: biologie a ochrana. Označené obrázky, které podporují výzkum strojového učení kolem ekologie a environmentální vědy. Žádný ~ 10 milionů obrázků snímky Klasifikace 2019 Pracovní skupina LILA
Můžeme vidět fotosyntézu? 32 videí pro osm živých a osm mrtvých listů zaznamenaných za světelných podmínek DC i AC. Žádný 32 videí Videa Detekce živosti rostlin 2017 Taj-Eddin, IATF a kol.

Textová data

Datové sady sestávající převážně z textu pro úkoly, jako je zpracování přirozeného jazyka , analýza sentimentu , překlady a klastrová analýza .

Recenze

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Recenze Amazonu Recenze produktů USA z Amazon.com . Žádný. 233,1 milionu Text Klasifikace, analýza sentimentu 2015 (2018) McAuley a kol.
OpinRank Review Dataset Recenze automobilů a hotelů z webu Edmunds.com a TripAdvisor . Žádný. 42 230 / ~ 259 000, resp Text Analýza sentimentu, shlukování 2011 K. Ganesan a kol.
Objektiv MovieLens 22 000 000 hodnocení a 580 000 značek bylo použito na 33 000 filmů od 240 000 uživatelů. Žádný. ~ 22 mil Text Regrese, shlukování, klasifikace 2016 GroupLens Research
Yahoo! Hodnocení uživatelů hudby hudebních umělců Více než 10 milionů hodnocení umělců od uživatelů Yahoo. Žádný popsán. ~ 10 mil Text Shlukování, regrese 2004 Yahoo!
Sada dat pro hodnocení automobilů Vlastnosti auta a jejich celková přijatelnost. Je uvedeno šest kategorických funkcí. 1728 Text Klasifikace 1997 M. Bohanec
Datová sada preferencí Comedy Slam Údaje o hlasování uživatelů pro dvojice videí zobrazených na YouTube. Uživatelé hlasovali pro zábavnější videa. Jsou zadána metadata videa. 1,138,562 Text Klasifikace 2012 Google
Datová sada uživatelských recenzí Skytrax Uživatelské recenze leteckých společností, letišť, sedadel a salonků od společnosti Skytrax. Hodnocení jsou jemná a zahrnují mnoho aspektů letištních zkušeností. 41396 Text Klasifikace, regrese 2015 Q. Nguyen
Dataset hodnocení pedagogického asistenta Recenze asistenta pedagoga. Jsou uvedeny vlastnosti každé instance, jako je třída, velikost třídy a instruktor. 151 Text Klasifikace 1997 W. Loh a kol.
Korpus zpětné vazby vietnamských studentů (UIT-VSFC) Zpětná vazba studentů. Komentáře 16 000 Text Klasifikace 1997 Nguyen a kol.
Vietnamese Social Media Emotion Corpus (UIT-VSMEC) Komentáře uživatelů na Facebooku. Komentáře 6927 Text Klasifikace 1997 Nguyen a kol.
Datový soubor pro detekci stížností na vietnamskou otevřenou doménu (ViOCD) Recenze produktů zákazníků Komentáře 5 485 Text Klasifikace 2021 Nguyen a kol.

Novinové články

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada NYSK Anglické zpravodajské články o případu týkajícím se obvinění ze sexuálního napadení bývalého ředitele MMF Dominique Strauss-Kahna . Filtrováno a prezentováno ve formátu XML. 10 421 XML, text Analýza sentimentu, extrakce tématu 2013 Dermouche, M. a kol.
Korpus Reuters, svazek 1 Velký korpus novinek Reuters v angličtině. Kategorizace jemných zrn a kódy témat. 810 000 Text Klasifikace, shlukování, sumarizace 2002 Reuters
Korpus svazku 2 agentury Reuters Velký korpus novinek Reuters ve více jazycích. Kategorizace jemných zrn a kódy témat. 487 000 Text Klasifikace, shlukování, sumarizace 2005 Reuters
Sbírka výzkumu textu Thomson Reuters Velký korpus novinek. Podrobnosti nejsou popsány. 1 800 370 Text Klasifikace, shlukování, sumarizace 2009 T. Rose a kol.
Saúdské noviny Corpus 31 030 článků v arabských novinách. Extrahována metadata. 31 030 JSON Shrnutí, shlukování 2015 M. Alhagri
RE3D (datová sada pro vyhodnocení extrakce vztahů a entit) Entita a vztah označila data z různých zpravodajských a vládních zdrojů. Sponzorováno společností Dstl Filtrováno, kategorizace pomocí typů Baleen neznámý JSON Rozpoznání klasifikace, entity a vztahu 2017 Dstl
Zkoušející Spam Clickbait Katalog Clickbait, spam, titulky z davu od roku 2010 do roku 2015 Publikovat datum a titulky 3,089,781 CSV Shlukování, události, sentiment 2016 R. Kulkarni
ABC Australia News Corpus Celý zpravodajský korpus ABC Australia od roku 2003 do roku 2019 Publikovat datum a titulky 1,186,018 CSV Shlukování, události, sentiment 2020 R. Kulkarni
Celosvětové zprávy - souhrn 20 000 kanálů Týdenní snímek všech online titulků ve více než 20 jazycích Čas publikování, adresa URL a titulky 1 398 431 CSV Shlukování, události, detekce jazyků 2018 R. Kulkarni
Reuters News Wire Headline 11 let časově označených událostí zveřejněných na zpravodajském drátu Čas publikování, text nadpisu 16,121,310 CSV NLP, Výpočetní lingvistika, Události 2018 R. Kulkarni
The Irish Times Ireland News Corpus Novinky 24 let Irska od roku 1996 do roku 2019 Čas publikování, kategorie nadpisu a text 1,484,340 CSV NLP, Výpočetní lingvistika, Události 2020 R. Kulkarni
Datový soubor novinek pro detekci sarkasmu Vysoce kvalitní datová sada s titulky novinek Sarcastic a Non sarcastic. Čistý, normalizovaný text 26 709 JSON NLP, klasifikace, lingvistika 2018 Rishabh Misra

Zprávy

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada e -mailů Enron E -maily od zaměstnanců společnosti Enron jsou uspořádány do složek. Přílohy odstraněny, neplatné e -mailové adresy převedeny na user@enron.com nebo no_address@enron.com. ~ 500 000 Text Analýza sítě, analýza sentimentu 2004 (2015) Klimt, B. a Y. Yang
Datová sada Ling-Spam Korpus obsahující legitimní i nevyžádané e -maily. Čtyři verze korpusu zahrnující, zda byl povolen lemmatiser nebo stop-list. 2 412 šunky 481 spam Text Klasifikace 2000 Androutsopoulos, J. a kol.
Datová sada shromažďování spamu SMS Shromážděné nevyžádané zprávy SMS. Žádný. 5574 Text Klasifikace 2011 T. Almeida a kol.
Datová sada Dvacet diskusních skupin Zprávy z 20 různých diskusních skupin. Žádný. 20 000 Text Zpracování přirozeného jazyka 1999 T. Mitchell a kol.
Datová sada Spambase Spamové e -maily. Extrahováno mnoho textových funkcí. 4,601 Text Detekce spamu, klasifikace 1999 M. Hopkins a kol.
Datová sada ColBERT Krátké vtipy. Odlehlé hodnoty byly odstraněny. 200 000 Text Detekce humoru, klasifikace 2020 I. Annamoradnejad.

Twitter a tweety

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Filmové tweety Datová sada hodnocení filmů založená na veřejných a dobře strukturovaných tweetech ~ 710 000 Text Klasifikace, regrese 2018 S. Dooms
Twitter 100 tis Páry obrázků a tweetů 100 000 Text a obrázky Vyhledávání napříč médii 2017 Y. Hu, et al.
Sentiment 140 Tweetujte data z roku 2009 včetně původního textu, časového razítka, uživatele a sentimentu. Zařazeno pomocí vzdáleného dohledu z přítomnosti emotikonu v tweetu. 1 578 627 Tweety, čárka, oddělené hodnoty Analýza sentimentu 2009 A. Go a kol.
Datová sada Twitter ASU Data sítě Twitter, nikoli skutečné tweety. Ukazuje spojení mezi velkým počtem uživatelů. Žádný. 11 316 811 uživatelů, 85 331 846 připojení Text Shlukování, analýza grafů 2009 R. Zafarani a kol.
SNAP Social Circles: Twitterová databáze Velká data sítě Twitter. Funkce uzlů, kruhy a sítě ega. 1 768 149 Text Shlukování, analýza grafů 2012 J. McAuley a kol.
Datová sada Twitter pro analýzu arabských sentimentů Arabské tweety. Vzorky ručně označené jako pozitivní nebo negativní. 2000 Text Klasifikace 2014 N. Abdulla
Buzz v datové sadě sociálních médií Data z Twitteru a Tom's Hardware. Tato datová sada se zaměřuje na konkrétní témata buzz, o nichž se na těchto webech diskutuje. Data jsou umístěna v okně, aby se uživatel mohl pokusit předpovědět události, které vedly k buzeraci sociálních médií. 140 000 Text Regrese, klasifikace 2013 F. Kawala a kol.
Parafráze a sémantická podobnost na Twitteru (PIT) Tato datová sada se zaměřuje na to, zda tweety mají (téměř) stejný význam/informace nebo ne. Ručně označeno. tokenizace, mluvené slovo a označování pojmenovaných entit 18,762 Text Regrese, klasifikace 2015 Xu a kol.
Geoparse Twitter benchmark dataset Tato datová sada obsahuje tweety během různých zpravodajských událostí v různých zemích. Ručně označené umístění zmiňuje. anotace umístění přidané do metadat JSON 6 386 Tweety, JSON Klasifikace, extrakce informací 2014 SE Middleton a kol.
Nizozemská sbírka sociálních médií Tato datová sada obsahuje tweety COVID-19 vytvořené holandskými mluvčími nebo uživateli z Nizozemska. Data byla strojově anotována klasifikováno pro sentiment, text tweetu a popis uživatele přeloženo do angličtiny. Extrahují se zmínky o průmyslu 271 342 JSONL Sentiment, klasifikace více štítků, strojový překlad 2020 Aaaksh Gupta, CoronaProč

Dialogy

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
NPS Chat Corpus Příspěvky z online chatovacích místností specifických pro věk. Ochrana soukromí rukou maskována, označena pro část řeči a dialogu. ~ 500 000 XML NLP, programování, lingvistika 2007 Forsyth, E., Lin, J., & Martell, C.
Triple Corpus na Twitteru ABA ztrojnásobila z Twitteru. 4,232 Text NLP 2016 Sordini, A. a kol.
Použijte síť Corpus Příspěvky na fóru UseNet. Anonymizované e-maily a adresy URL. Vynechané dokumenty s délkou <500 slov nebo> 500 000 slov, nebo které byly z <90% angličtiny. 7 miliard Text 2011 Shaoul, C., a Westbury C.
NUS SMS Corpus SMS zprávy shromážděné mezi dvěma uživateli s časovou analýzou. ~ 10 000 XML NLP 2011 KAN, M
Reddit Všechny komentáře Corpus Všechny komentáře Reddit (od roku 2015). ~ 1,7 miliardy JSON NLP, výzkum 2015 Stuck_In_the_Matrix
Ubuntu Dialogue Corpus Dialogy extrahované ze streamu chatu Ubuntu na IRC. CSV Výzkum dialogových systémů 2015 Lowe, R. a kol.
Dialogová výzva ke sledování stavu Dialog State Tracking Challenges 2 & 3 (DSTC2 & 3) byly výzkumnou výzvou zaměřenou na zlepšení současného stavu ve sledování stavu systémů mluvených dialogů. Přepis mluvených dialogů s označováním DSTC2 obsahuje ~ 3,2k volání - DSTC3 obsahuje ~ 2,3k volání JSON Sledování stavu dialogu 2014 Henderson, Matthew a Thomson, Blaise a Williams, Jason D.

Jiný text

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada Web of Science Hierarchické datové sady pro klasifikaci textu Žádný. 46,985 Text Klasifikace,

Kategorizace

2017 K. Kowsari a kol.
Právní případové zprávy Případy federálního soudu v Austrálii v letech 2006 až 2009. Žádný. 4 000 Text Shrnutí,

citační analýza

2012 F. Galgani a kol.
Blogger Authorship Corpus Záznamy blogu 19 320 lidí z blogger.com. Blogger si sám určil pohlaví, věk, obor a astrologické znamení. 681 288 Text Analýza sentimentu, sumarizace, klasifikace 2006 J. Schler a kol.
Sociální struktura sítí Facebook Velký datový soubor sociální struktury Facebooku. Žádný. Zahrnuto 100 vysokých škol Text Síťová analýza, klastrování 2012 A. Traud a kol.
Datová sada pro strojové porozumění textu Příběhy a související otázky pro testování porozumění textu. Žádný. 660 Text Zpracování přirozeného jazyka, strojové porozumění 2013 M. Richardson a kol.
Projekt Penn Treebank Přirozeně se vyskytující text anotovaný pro lingvistickou strukturu. Text je analyzován do sémantických stromů. ~ 1 milion slov Text Zpracování přirozeného jazyka, sumarizace 1995 M. Marcus a kol.
Datová sada DEXTER Zadaným úkolem je určit z uvedených funkcí, které články jsou o akvizicích společností. Extrahované funkce zahrnují stopky slov. Součástí jsou rušivé prvky. 2 600 Text Klasifikace 2008 Reuters
Knihy Google v gramech N-gramů z velmi velkého korpusu knih Žádný. 2,2 TB textu Text Klasifikace, shlukování, regrese 2011 Google
Personae Corpus Shromážděno pro experimenty v autorské atribuci a predikci osobnosti. Skládá se ze 145 esejů v holandštině. Kromě běžných textů jsou uvedeny i syntakticky komentované texty. 145 Text Klasifikace, regrese 2008 K. Luyckx a kol.
Datová sada CNAE-9 Kategorizační úkol pro volné textové popisy brazilských společností. Frekvence slov byla extrahována. 1080 Text Klasifikace 2012 P. Ciarelli a kol.
Datová sada Sentiment Labeled Sentences 3000 sentimentem označených vět. Sentiment každé věty byl ručně označen jako pozitivní nebo negativní. 3000 Text Klasifikace, analýza sentimentu 2015 D. Kotzias
Datová sada BlogFeedback Datová sada pro předpovídání počtu komentářů, které příspěvek obdrží na základě funkcí daného příspěvku. Extrahováno mnoho funkcí každého příspěvku. 60,021 Text Regrese 2014 K. Buza
Stanfordský přirozený jazykový závěr (SNLI) Corpus Obrazové titulky spárované s nově vytvořenými větami vytvářející entuziazmus, rozpor nebo neutrální páry. Štítky třídy útěků, syntaktická analýza analyzátorem Stanford PCFG 570 000 Text Vyvozování přirozeného jazyka/rozpoznávání textových souvislostí 2015 S. Bowman a kol.
Kolekce DSL Corpus (DSLCC) Vícejazyčná sbírka krátkých ukázek novinářských textů v podobných jazycích a dialektech. Žádný 294 000 frází Text Diskriminace mezi podobnými jazyky 2017 Tan, Liling a kol.
Datový soubor městského slovníku Korpus slov, hlasů a definic Anonymita uživatelských jmen 2 580 925 CSV NLP, strojové porozumění 2016 květen Anonymní
T rex Abstrakty Wikipedie zarovnané s entitami Wikidata Zarovnání Wikidata se ztrojnásobuje s abstrakty Wikipedie 11M zarovnáno trojnásobek JSON a NIF [2] NLP, extrakce relací 2018 H. Elsahar a kol.
Obecné jazykové hodnocení (GLUE) Srovnávací test devíti úkolů Rozličný ~ 1 milion vět a větných dvojic NLU 2018 Wang a kol.
Contract Understanding Atticus Dataset (CUAD) (dříve známý jako Atticus Open Contract Dataset (AOK)) Datová sada právních smluv s bohatými odbornými anotacemi ~ 13 000 štítků CSV a PDF Zpracování přirozeného jazyka, QnA 2021 Projekt Atticus
Datová sada titulků vietnamských obrázků (UIT-ViIC) Datová sada vietnamských titulků pro obrázky 19 250 titulků pro 3 850 obrázků CSV a PDF Zpracování přirozeného jazyka, počítačové vidění 2020 Lam a kol.
Vietnamská jména anotovaná pohlavími (UIT-ViNames) Vietnamská jména komentovaná rodem 26 850 vietnamských celých jmen opatřených anotacemi podle pohlaví CSV Zpracování přirozeného jazyka 2020 To et al.
Datová sada pro vietnamskou konstruktivní a toxickou řeč (UIT-ViCTSD) Datová sada pro vietnamskou konstruktivní a toxickou řeč 10 000 komentářů vietnamských uživatelů k online novinám na 10 doménách CSV Zpracování přirozeného jazyka 2021 Nguyen a kol.
Datová sada ColBERT Krátké vtipy. Odlehlé hodnoty byly odstraněny. 200 000 Text Detekce humoru, klasifikace 2020 Annamoradnejad a kol.

Zvuková data

Datové sady zvuků a zvukových funkcí.

Mluvený projev

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Zero Resource Speech Challenge 2015 Spontánní řeč (anglicky), Přečtěte si řeč (Xitsonga). surová vlna Angličtina: 5h, 12 reproduktorů; Xitsonga: 2:30; 24 reproduktorů zvuk Zjišťování funkcí řeči/podslovních jednotek/slovních jednotek bez dozoru 2015 Versteegh a kol.
Datová sada Parkinsonovy řeči Několik záznamů lidí s Parkinsonovou nemocí i bez ní. Extrahované hlasové funkce, nemoc hodnocená lékařem pomocí jednotné stupnice hodnocení Parkinsonovy choroby 1040 Text Klasifikace, regrese 2013 BE Sakar a kol.
Mluvené arabské číslice Mluvené arabské číslice od 44 mužů a 44 žen. Časové řady koeficientů cepstrumu kmitočtu mel . 8800 Text Klasifikace 2010 M. Bedda a kol.
Datová sada ISOLET Mluvená jména písmen. Funkce extrahované ze zvuků. 7797 Text Klasifikace 1994 R. Cole a kol.
Datová sada japonských samohlásek Devět mužských řečníků proneslo postupně dvě japonské samohlásky. Aplikovala na něj 12stupňovou lineární predikční analýzu, aby získala diskrétní časovou řadu s 12 koeficienty cepstrum. 640 Text Klasifikace 1999 M. Kudo a kol.
Datová sada Parkinsonova telemonitorování Několik záznamů lidí s Parkinsonovou nemocí i bez ní. Extrahovány zvukové funkce. 5875 Text Klasifikace 2009 A. Tsanas a kol.
TIMIT Záznamy 630 mluvčích osmi hlavních dialektů americké angličtiny, z nichž každý čte deset foneticky bohatých vět. Řeč je přepsána lexikálně a fonemicky. 6300 Text Rozpoznávání řeči, klasifikace. 1986 J. Garofolo a kol.
Arabský řečový korpus Jeden reproduktor, Modern Standard Arabic (MSA) řečový korpus s fonetickými a ortografickými přepisy zarovnanými na úroveň fonému Řeč je ortograficky a foneticky přepisována značkami napětí. ~ 1900 Text, WAV Syntéza řeči, Rozpoznávání řeči, Zarovnání korpusu, Logopedie, Vzdělávání. 2016 N. Halabi
Společný hlas Public domain databáze crowdsourcovaných dat v celé řadě dialektů. Ověření ostatními uživateli Angličtina: 1 118 hodin MP3 s odpovídajícími textovými soubory Rozpoznávání řeči Červen 2017 (prosinec 2019) Mozilla

Hudba

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Geografický původ sady hudebních dat Zvukové funkce hudebních ukázek z různých míst. Zvukové funkce extrahované pomocí softwaru MARSYAS. 1059 Text Geografická klasifikace, shlukování 2014 F. Zhou a kol.
Datová sada Million Song Funkce zvuku z milionu různých skladeb. Extrahovány zvukové funkce. 1 mil Text Klasifikace, shlukování 2011 T. Bertin-Mahieux a kol.
MUSDB18 Vícestopé populární hudební nahrávky Surový zvuk 150 MP4, WAV Separace zdroje 2017 Z. Rafii a kol.
Zdarma hudební archiv Zvuk pod Creative Commons ze 100 000 skladeb (343 dní, 1 TB) s hierarchií 161 žánrů, metadat, uživatelských dat, volného textu. Surový zvuk a zvukové funkce. 106,574 Text, MP3 Klasifikace, doporučení 2017 M. Defferrard a kol.
Datová sada Bach Choral Harmony Bachovy chorály. Extrahovány zvukové funkce. 5665 Text Klasifikace 2014 D. Radicioni a kol.

Jiné zvuky

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
UrbanSound Označené zvukové záznamy zvuků, jako jsou klimatizace, klaksony a hrající si děti. Seřazeno do složek podle třídy událostí a také metadat v souboru JSON a anotací v souboru CSV. 1059 Zvuk

( WAV )

Klasifikace 2014 J. Salamon a kol.
AudioSet 10sekundové zvukové úryvky z videí na YouTube a ontologie s více než 500 štítky. 128-d funkce PCA'd VGG-ish každou 1 sekundu. 2,084,320 Textové (CSV) a soubory TensorFlow Record Klasifikace 2017 J. Gemmeke a kol., Google
Výzva k detekci zvuku ptáků Zvuk z monitorovacích stanic životního prostředí a nahrávky davu 17 000+ Klasifikace 2016 (2018) Queen Mary University a IEEE Signal Processing Society
Okolní směsi WSJ0 Hipster Zvuk z WSJ0 smíchaný s hlukem zaznamenaným v oblasti San Francisco Bay Area Hlukové klipy odpovídají klipům WSJ0 28 000 Zvuk ( WAV ) Oddělení zvukového zdroje 2019 Wichern, G. a kol., Whisper a MERL
Clotho 4 981 zvukových ukázek o délce 15 až 30 sekund, každý zvukový vzorek má pět různých titulků o délce osm až 20 slov. 24 905 Zvuk ( WAV ) a text ( CSV ) Automatické zvukové titulky 2020 K. Drossos, S. Lipping a T. Virtanen

Signální data

Datové sady obsahující informace o elektrickém signálu vyžadující nějaký druh zpracování signálu pro další analýzu.

Elektrický

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datový soubor Witty Worm Datová sada popisující šíření červa Witty a infikovaných počítačů. Rozdělte na veřejně dostupnou sadu a omezenou sadu obsahující citlivější informace, jako jsou záhlaví IP a UDP. 55 909 IP adres Text Klasifikace 2004 Centrum pro aplikovanou internetovou analýzu dat
Datový soubor pro odhad krevního tlaku bez manžety Vyčištěné vitální signály od lidských pacientů, které lze použít k odhadu krevního tlaku. Byly vyčištěny 125 Hz vitální funkce. 12 000 Text Klasifikace, regrese 2015 M. Kachuee a kol.
Datová sada pole senzorů plynu Měření ze 16 chemických senzorů použitých v simulacích pro kompenzaci driftu. Rozsáhlý počet daných funkcí. 13 910 Text Klasifikace 2012 A. Vergara
Servo datová sada Data pokrývající nelineární vztahy pozorované v obvodu servozesilovače. Jsou uvedeny úrovně různých složek jako funkce ostatních složek. 167 Text Regrese 1993 K. Ullrich
Datová sada UJIIndoorLoc-Mag Vnitřní lokalizační databáze pro testování vnitřních polohovacích systémů. Data jsou založena na magnetickém poli. Dané tréninkové a testovací mezery. 40 000 Text Klasifikace, regrese, shlukování 2015 D. Rambla a kol.
Datová sada diagnostiky pohonu bez čidel Elektrické signály z motorů s vadnými součástmi. Extrahovány statistické funkce. 58 508 Text Klasifikace 2015 M. Bator

Sledování pohybu

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Wearable Computing: Klasifikace držení těla a pohybů (PUC-Rio) Lidé provádějící pět standardních akcí při sledování pohybu. Žádný. 165,632 Text Klasifikace 2013 Papežská katolická univerzita v Rio de Janeiru
Datová sada segmentace gest Funkce extrahované z videa lidí, kteří dělají různá gesta. Extrahované funkce se zaměřují na studium segmentace fází gest. 9900 Text Klasifikace, shlukování 2014 R. Madeo a kol
Datová sada datové sady fyzických akcí Vicon 10 normálních a 10 agresivních fyzických akcí, které měří lidskou aktivitu sledovanou 3D trackerem. Mnoho parametrů zaznamenává 3D tracker. 3000 Text Klasifikace 2011 T. Theodoridis
Datová sada denních a sportovních aktivit Data senzoru motoru pro 19 denních a sportovních aktivit. Bylo dáno mnoho senzorů, žádné předzpracování signálů. 9120 Text Klasifikace 2013 B. Barshan a kol.
Rozpoznávání lidské činnosti pomocí datové sady chytrých telefonů Data gyroskopu a akcelerometru od lidí, kteří nosí chytré telefony a provádějí běžné akce. Provedené akce jsou označeny, všechny signály jsou předem zpracovány na šum. 10,299 Text Klasifikace 2012 J. Reyes-Ortiz a kol.
Znaky australského znakového jazyka Australské znaky znakové řeči zachycené rukavicemi pro sledování pohybu. Žádný. 2565 Text Klasifikace 2002 M. Kadous
Cvičení na vzpírání monitorovaná pomocí inerciálních měřicích jednotek Pět variací cviku na bicepsový záhyb monitorovaných pomocí IMU. Některé statistiky vypočteny z nezpracovaných dat. 39,242 Text Klasifikace 2013 W. Ugulino a kol.
Datová sada sEMG pro základní pohyby rukou Dvě databáze povrchových elektromyografických signálů o 6 pohybech rukou. Žádný. 3000 Text Klasifikace 2014 C. Sapsanis a kol.
Datová sada rozpoznávání aktivit REALDISP Vyhodnoťte techniky zabývající se efekty posunutí senzoru při rozpoznávání nositelné aktivity. Žádný. 1419 Text Klasifikace 2014 O. Banos a kol.
Datová sada rozpoznávání aktivity heterogenity Data z více různých chytrých zařízení pro lidi provádějící různé činnosti. Žádný. 43 930 257 Text Klasifikace, shlukování 2015 A. Stisen a kol.
Předpověď pohybu vnitřního uživatele z údajů RSS Dočasná bezdrátová síťová data, která lze použít ke sledování pohybu osob v kanceláři. Žádný. 13,197 Text Klasifikace 2016 D. Bacciu
Datová sada pro monitorování fyzické aktivity PAMAP2 18 různých typů fyzických aktivit prováděných 9 subjekty na sobě 3 IMU. Žádný. 3 850 505 Text Klasifikace 2012 A. Reiss
Datová sada rozpoznávání aktivit OPPORTUNITY Rozpoznávání lidské aktivity pomocí nositelných, objektových a okolních senzorů je datová sada navržená pro srovnání algoritmů rozpoznávání lidské aktivity. Žádný. 2551 Text Klasifikace 2012 D. Roggen a kol.
Datová sada pro rozpoznávání aktivit v reálném světě Rozpoznávání lidské aktivity z nositelných zařízení. Rozlišuje sedm poloh zařízení na těle a obsahuje šest různých druhů senzorů. Žádný. 3 150 000 (na snímač) Text Klasifikace 2016 T. Sztyler a kol.
Datová sada Toronto Rehab Stroke Pose 3D odhady lidské pózy (Kinect) pacientů s mrtvicí a zdravých účastníků provádějících sadu úkolů pomocí robota pro rehabilitaci mrtvice. Žádný. 10 zdravých osob a 9 pacientů, kteří přežili mrtvici (3 500–6 000 snímků na osobu) CSV Klasifikace 2017 E. Dolatabadi a kol.
Corpus of Social Touch (CoST) 7805 gest zachycuje 14 různých sociálních dotykových gest prováděných 31 subjekty. Gesta byla prováděna ve třech variantách: jemná, normální a drsná, na mřížce senzoru tlaku omotané kolem paže figuríny. Provedená dotyková gesta jsou segmentována a označena. 7805 zachycuje gesta CSV Klasifikace 2016 M. Jung a kol.

Jiné signály

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada vína Chemická analýza vín pěstovaných ve stejné oblasti v Itálii, ale získaných ze tří různých kultivarů. Je uvedeno 13 vlastností každého vína 178 Text Klasifikace, regrese 1991 M. Forina a kol.
Soubor dat elektrárny s kombinovaným cyklem Data z různých senzorů v elektrárně běžící 6 let. Žádný 9568 Text Regrese 2014 P. Tufekci a kol.

Fyzická data

Datové sady z fyzických systémů.

Fyzika vysokých energií

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada HIGGS Monte Carlo simulace kolizí urychlovače částic. Je uvedeno 28 vlastností každé kolize. 11 mil Text Klasifikace 2014 D. Whiteson
Datová sada HEPMASS Monte Carlo simulace kolizí urychlovače částic. Cílem je oddělit signál od šumu. Je uvedeno 28 vlastností každé kolize. 10 500 000 Text Klasifikace 2016 D. Whiteson

Systémy

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datový soubor hydrodynamiky jachet Výkon jachty na základě rozměrů. Pro každou jachtu je uvedeno šest funkcí. 308 Text Regrese 2013 R. Lopez
Datová sada Selhání spuštění robota 5 datových sad, které se soustředí na selhání robotů při provádění běžných úkolů. Funkce s celočíselnou hodnotou, jako je točivý moment a další měření senzorů. 463 Text Klasifikace 1999 L. Seabra a kol.
Datová sada Pittsburgh Bridges Popis konstrukce je uveden z hlediska několika vlastností různých mostů. Jsou uvedeny různé funkce mostu. 108 Text Klasifikace 1990 Y. Reich a kol.
Automobilová datová sada Údaje o automobilech, jejich pojistném riziku a jejich normalizovaných ztrátách. Extrahované funkce auta. 205 Text Regrese 1987 J. Schimmer a kol.
Automatická datová sada MPG Data MPG pro automobily. Je uvedeno osm funkcí každého vozu. 398 Text Regrese 1993 Univerzita Carnegie Mellon
Datová sada o energetické účinnosti Požadavky na vytápění a chlazení dané funkcí parametrů budovy. Uvedené parametry budovy. 768 Text Klasifikace, regrese 2012 A. Xifara a kol.
Datový soubor s vlastním hlukem profilu křídla Série aerodynamických a akustických testů dvou a trojrozměrných profilů lopatek křídla. Jsou uvedeny údaje o frekvenci, úhlu útoku atd. 1503 Text Regrese 2014 R. Lopez
Datová sada O-kroužků raketoplánu Challenger USA Pokuste se předpovědět problémy s O-kroužkem vzhledem k minulým datům Challengeru. U každého letu je uvedeno několik funkcí, například teplota spuštění. 23 Text Regrese 1993 D. Draper a kol.
Datová sada Statlog (Shuttle) Datové sady raketoplánů NASA. Je uvedeno devět funkcí. 58 000 Text Klasifikace 2002 NASA

Astronomie

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Sopky na Venuši - experimentální datový soubor JARtool Snímky Venuše vrácené kosmickou lodí Magellan. Obrázky jsou označeny lidmi. nedáno snímky Klasifikace 1991 M. Burl
Datová sada MAGIC Gamma Telescope Monte Carlo generovalo vysokoenergetické gama částice. Mnoho funkcí extrahovaných ze simulací. 19 020 Text Klasifikace 2007 R. Bock
Datová sada sluneční erupce Měření počtu určitých typů slunečních erupcí vyskytujících se za 24 hodin. Je dáno mnoho funkcí specifických pro sluneční erupci. 1389 Text Regrese, klasifikace 1989 G. Bradshaw

Věda o Zemi

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Sopky světa Údaje o sopečné erupci pro všechny známé sopečné události na Zemi. Jsou uvedeny detaily jako region, subregion, tektonické nastavení, dominantní typ horniny. 1535 Text Regrese, klasifikace 2013 E. Venzke a kol.
Datová sada seismických nárazů Seismické aktivity z uhelného dolu. Seizmická aktivita byla klasifikována jako nebezpečná nebo ne. 2584 Text Klasifikace 2013 M. Sikora a kol.
KAMELY -US Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 671 CSV, Text, Shapefile Regrese 2017 N. Addor a kol. / A. Newman a kol.
CAMELS-Chile Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 516 CSV, Text, Shapefile Regrese 2018 C. Alvarez-Garreton a kol.
KAMELY-Brazílie Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 897 CSV, Text, Shapefile Regrese 2020 V. Chagas a kol.
CAMELS-GB Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 671 CSV, Text, Shapefile Regrese 2020 G. Coxon a kol.
CAMELS-Austrálie Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 222 CSV, Text, Shapefile Regrese 2021 K. Fowler a kol.
LamaH -CE Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy viz Reference 859 CSV, Text, Shapefile Regrese 2021 C. Klingler a kol.

Jiné fyzické

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada pevnosti v tlaku v betonu Datový soubor vlastností betonu a pevnosti v tlaku. Pro každý vzorek je uvedeno devět funkcí. 1030 Text Regrese 2007 Ano
Datová sada pro zkoušku propadu betonu Průtok betonu je dán vlastnostmi. Vlastnosti daného betonu, jako je popílek, voda atd. 103 Text Regrese 2009 Ano
Datová sada pižma Předpovězte, zda molekula, vzhledem k vlastnostem, bude pižmo nebo ne-pižmo. Pro každou molekulu je uvedeno 168 rysů. 6598 Text Klasifikace 1994 Arris Pharmaceutical Corp.
Datová sada poruch ocelových plechů Ocelové desky 7 různých typů. Pro každý vzorek je uvedeno 27 funkcí. 1941 Text Klasifikace 2010 Centrum výzkumu Semeion

Biologická data

Datové sady z biologických systémů.

Člověk

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Databáze EEG Studie zkoumající koreláty EEG genetické predispozice k alkoholismu. Měření ze 64 elektrod umístěných na pokožce hlavy vzorkováno při 256 Hz (epocha 3,9 ms) po dobu 1 sekundy. 122 Text Klasifikace 1999 H. Begleiter
Datová sada rozhraní P300 Data od devíti subjektů byla shromážděna pomocí rozhraní mozek-počítač na bázi P300 pro zdravotně postižené subjekty. Rozdělte do čtyř relací pro každý předmět. Zadán kód MATLAB . 1224 Text Klasifikace 2008 U. Hoffman a kol.
Sada údajů o srdečních chorobách Přisuzováno pacientům s onemocněním srdce i bez něj. Pro každého pacienta je uvedeno 75 atributů s některými chybějícími hodnotami. 303 Text Klasifikace 1988 A. Janosi a kol.
Datová sada rakoviny prsu ve Wisconsinu (diagnostická) Datový soubor vlastností prsních hmot. Diagnózy jsou stanoveny lékařem. Pro každý vzorek je uvedeno 10 funkcí. 569 Text Klasifikace 1995 W. Wolberg a kol.
Národní průzkum užívání drog a zdraví Rozsáhlý průzkum zdraví a užívání drog ve Spojených státech. Žádný. 55,268 Text Klasifikace, regrese 2012 Ministerstvo zdravotnictví a sociálních služeb USA
Datová sada rakoviny plic Datový soubor rakoviny plic bez definic atributů Pro každý případ je uvedeno 56 funkcí 32 Text Klasifikace 1992 Z. Hong a kol.
Datová sada arytmie Údaje pro skupinu pacientů, z nichž někteří mají srdeční arytmii. 276 funkcí pro každou instanci. 452 Text Klasifikace 1998 H. Altay a kol.
Diabetes 130-americké nemocnice pro roky 1999–2008 Dataset 9 let údajů o zpětném přebírání ve 130 amerických nemocnicích pro pacienty s diabetem. Je uvedeno mnoho funkcí každého zpětného převzetí. 100 000 Text Klasifikace, shlukování 2014 J. Clore a kol.
Datová sada Diabetická retinopatie Debrecen Funkce extrahované z obrazů očí s diabetickou retinopatií i bez ní. Extrahované funkce a diagnostikované podmínky. 1151 Text Klasifikace 2014 B. Antal a kol.
Datová sada pro diabetickou retinopatii Messidor Metody hodnocení technik segmentace a indexování v oblasti sítnicové oftalmologie (MESSIDOR) Vyznačuje se stupněm retinopatie a rizikem makulárního edému 1200 Obrázky, text Klasifikace, segmentace 2008 Projekt Messidor
Datová sada pro poruchy jater Údaje pro osoby s poruchou jater. Pro každého pacienta je uvedeno sedm biologických rysů. 345 Text Klasifikace 1990 Bupa Medical Research Ltd.
Datová sada onemocnění štítné žlázy 10 databází údajů o pacientech s onemocněním štítné žlázy. Žádný. 7200 Text Klasifikace 1987 R. Quinlan
Datová sada Mesothelioma Mezoteliomová data o pacientech. Je uveden velký počet funkcí, včetně expozice azbestu. 324 Text Klasifikace 2016 A. Tanrikulu a kol.
Datová sada odhadu Pose na základě Parkinsonovy vize 2D odhady lidské pózy u Parkinsonových pacientů provádějících různé úkoly. Chvění fotoaparátu bylo z trajektorií odstraněno. 134 Text Klasifikace, regrese 2017 M. Li a kol.
Datová sada KEGG Metabolic Reaction Network (Unirected) Síť metabolických cest. Je uvedena reakční síť a relační síť . Jsou uvedeny podrobné funkce pro každý síťový uzel a cestu. 65 554 Text Klasifikace, shlukování, regrese 2011 M. Naeem a kol.
Modifikovaná datová sada pro analýzu morfologie lidských spermií (MHSMA) Obrázky lidských spermií od 235 pacientů s neplodností mužského faktoru, označené pro normální nebo abnormální akrozom spermatu, hlavu, vakuolu a ocas. Oříznuto kolem hlavy jednoho spermatu. Zvětšení normalizováno. Byly vytvořeny tréninkové, ověřovací a testovací skupiny. 1540 .npy soubory Klasifikace 2019 S. Javadi a SA Mirroshandel

Zvíře

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Sada dat Abalone Fyzikální měření Abalone. Rovněž jsou uvedeny vzorce počasí a poloha. Žádný. 4177 Text Regrese 1995 Marine Research Laboratories - Taroona
Zoo datová sada Umělý datový soubor zahrnující 7 tříd zvířat. Zvířata jsou zařazena do 7 kategorií a u každé jsou uvedeny vlastnosti. 101 Text Klasifikace 1990 R. Forsyth
Datová sada Demospongiae Údaje o mořských houbách. 503 houbiček ve třídě Demosponge je popsáno různými funkcemi. 503 Text Klasifikace 2010 E. Armengol a kol.
Datová sada genových sekvencí spojovacích spojů Primární sestřihové genové sekvence (DNA) s přidruženou teorií nedokonalé domény. Žádný. 3190 Text Klasifikace 1992 G. Towell a kol.
Datová sada pro expresi myších proteinů Hladiny exprese 77 proteinů měřené v mozkové kůře myší. Žádný. 1080 Text Klasifikace, shlukování 2015 C. Higuera a kol.

Houby

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada hub UCI Atributy a klasifikace hub. Je dáno mnoho vlastností každé houby. 8124 Text Klasifikace 1987 J. Schlimmer
Datová sada sekundárních hub Atributy a klasifikace hub Simulovaná data z větších a realističtějších primárních záznamů o houbách. Plně reprodukovatelné. 61069 Text Klasifikace 2020 D. Wagner a kol.

Rostlina

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datový soubor lesních požárů Lesní požáry a jejich vlastnosti. Je extrahováno 13 vlastností každého ohně. 517 Text Regrese 2008 P. Cortez a kol.
Datová sada Iris Tři druhy rostlin duhovky jsou popsány 4 různými atributy. Žádný. 150 Text Klasifikace 1936 R. Fishera
Dataset listů rostlinných druhů Šestnáct vzorků listů, každý ze sta druhů rostlin. Jsou uvedeny deskriptory tvaru, okraje s jemným měřítkem a histogramy textur. 1600 Text Klasifikace 2012 J. Cope a kol.
Sójová datová sada Databáze nemocných rostlin sóji. Pro každou rostlinu je uvedeno 35 funkcí. Rostliny jsou zařazeny do 19 kategorií. 307 Text Klasifikace 1988 R. Michalski a kol.
Sada dat semen Měření geometrických vlastností jader patřících do tří různých odrůd pšenice. Žádný. 210 Text Klasifikace, shlukování 2012 Charytanowicz a kol.
Datový soubor Covertype Data pro predikci typu lesního porostu výhradně z kartografických proměnných. Je dáno mnoho geografických rysů. 581 012 Text Klasifikace 1998 J. Blackard a kol.
Datová sada signální sítě Abscisic Acid Data pro signalizační síť závodu. Cílem je určit sadu pravidel, která řídí síť. Žádný. 300 Text Kauzální objev 2008 J. Jenkens a kol.
Datová sada Folio 20 fotografií listů pro každý z 32 druhů. Žádný. 637 Obrázky, text Klasifikace, shlukování 2015 T. Munisami a kol.
Datová sada Oxford Flower Datová sada 17 kategorií květin. Trénujte/testujte rozdělení, označené obrázky, 1360 Obrázky, text Klasifikace 2006 ME Nilsback a kol.
Dataset rostlinných sazenic Datový soubor 12 kategorií sazenic rostlin. Označené obrázky, segmentované obrázky, 5544 snímky Klasifikace, detekce 2017 Giselsson a kol.
Datová sada Fruits 360 Databáze s obrázky 120 ovoce a zeleniny. 100 x 100 pixelů, bílé pozadí. 82213 Obrázky (jpg) Klasifikace 2017–2019 Mihai Oltean, Horea Muresan

Mikrob

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada Ecoli Lokalizace proteinů. Jsou uvedeny různé vlastnosti míst lokalizace proteinů. 336 Text Klasifikace 1996 K. Nakai a kol.
Datová sada MicroMass Identifikace mikroorganismů z údajů hmotnostní spektrometrie. Různé funkce hmotnostního spektrometru. 931 Text Klasifikace 2013 P. Mahe a kol.
Kvasinková datová sada Predikce buněčných lokalizačních míst proteinů. Pro každou instanci je uvedeno osm funkcí. 1484 Text Klasifikace 1996 K. Nakai a kol.

Objev drog

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada Tox21 Predikce výsledku biologických testů. Jsou uvedeny chemické deskriptory molekul. 12707 Text Klasifikace 2016 A. Mayr a kol.

Údaje o anomáliích

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Benchmark anomálie Numenta (NAB) Data jsou uspořádaná, časově označená, metriky s jednou hodnotou. Pokud není uvedeno jinak, všechny datové soubory obsahují anomálie. Žádný 50+ souborů Hodnoty oddělené čárkami Detekce anomálií 2016 (průběžně aktualizováno) Numenta
Skoltech Anomaly Benchmark (SKAB) Každý soubor představuje jeden experiment a obsahuje jednu anomálii. Datová sada představuje vícerozměrnou časovou řadu shromážděnou ze senzorů nainstalovaných na testovacím stole. Existují dvě značky pro problémy s detekcí odlehlých hodnot (bodové anomálie) a detekce změnových bodů (kolektivní anomálie) 30+ souborů (v0.9) Hodnoty oddělené čárkami Detekce anomálií 2020 (průběžně aktualizováno)

Iurii D. Katser a Vyacheslav O. Kozitsin
O vyhodnocení detekce odlehlých hodnot bez dozoru: Opatření, datové sady a empirická studie Většina datových souborů je upravena z dat úložiště UCI Machine Learning Repository, některé jsou shromážděny z literatury. ošetřeno pro chybějící hodnoty, pouze číselné atributy, různá procenta anomálií, popisky 1000+ souborů ARFF Detekce anomálií 2016 (případně aktualizováno o nové datové sady a/nebo výsledky)

Campos a kol.

Údaje pro zodpovězení otázek

Tato část obsahuje datové sady, které se zabývají strukturovanými daty.

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada DBpedia Neural Question Answering (DBNQA) Velká sbírka Question to SPARQL speciálně navržená pro Open Domain Neural Question Answering přes databázi znalostí DBpedia. Tato datová sada obsahuje velkou sbírku šablon Open Neural SPARQL a instancí pro školení strojů Neural SPARQL; bylo předzpracováno poloautomatickými anotačními nástroji a také třemi odborníky na SPARQL. 894 499 Páry dotaz-dotaz Odpověď na otázku 2018 Hartmann, Soru a Marx a kol.
Datová sada pro vietnamské otázky (UIT-ViQuAD) Velká sbírka vietnamských otázek pro hodnocení modelů MRC. Tento soubor dat obsahuje více než 23 000 párů otázek a odpovědí generovaných lidmi na základě 5 109 pasáží 174 vietnamských článků z Wikipedie. 23,074 Dvojice otázek a odpovědí Odpověď na otázku 2020 Nguyen a kol.
Vietnamský korpus pro strojové čtení s vícenásobným výběrem (ViMMRC) Sbírka vietnamských otázek s výběrem odpovědí pro hodnocení modelů MRC. Tento korpus obsahuje 2783 vietnamských otázek s možností výběru z více odpovědí. 2 783 Dvojice otázek a odpovědí Odpovídání na otázky/porozumění strojovému čtení 2020 Nguyen a kol.

Vícerozměrná data

Datové sady sestávající z řad pozorování a sloupců atributů charakterizujících tato pozorování. Obvykle se používá pro regresní analýzu nebo klasifikaci, ale lze použít i jiné typy algoritmů. Tato část obsahuje datové sady, které se nehodí do výše uvedených kategorií.

Finanční

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Dow Jonesův index Týdenní údaje o zásobách z prvního a druhého čtvrtletí roku 2011. Zahrnuty jsou vypočítané hodnoty, například procentuální změna a zpoždění. 750 Hodnoty oddělené čárkami Klasifikace, regrese, časové řady 2014 M. Brown a kol.
Statlog (australské schválení úvěru) Žádosti o kreditní kartu jsou buď přijaty, nebo zamítnuty, a atributy aplikace. Názvy atributů budou odstraněny stejně jako identifikační informace. Faktory byly znovu označeny. 690 Hodnoty oddělené čárkami Klasifikace 1987 R. Quinlan
Údaje aukce eBay Údaje o aukcích z různých objektů eBay.com z aukcí různých délek Obsahuje všechny nabídky, ID uchazeče, časy nabídek a otevírací ceny. ~ 550 Text Regrese, klasifikace 2012 G. Shmueli a kol.
Statlog (německé úvěrové údaje) Binární klasifikace kreditu na „dobré“ nebo „špatné“ s mnoha funkcemi U každé osoby jsou uvedeny různé finanční vlastnosti. 690 Text Klasifikace 1994 H. Hofmann
Bankovní marketingová datová sada Data z velké marketingové kampaně realizované velkou bankou. Je uvedeno mnoho atributů kontaktovaných klientů. Je -li uveden také klient, který se upsal bance. 45,211 Text Klasifikace 2012 S. Moro a kol.
Dataset Istanbulské burzy cenných papírů Několik akciových indexů bylo sledováno téměř dva roky. Žádný. 536 Text Klasifikace, regrese 2013 O. Akbilgic
Výchozí klienti kreditních karet Údaje o úvěrovém selhání pro tchajwanské věřitele. Pro každý účet jsou uvedeny různé funkce. 30 000 Text Klasifikace 2016 Ano

Počasí

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Cloudová datová sada Data o 1024 různých oblacích. Extrahované funkce obrázku. 1024 Text Klasifikace, shlukování 1989 P. Collard
Datová sada El Nino Oceánografické a povrchové meteorologické údaje odebrané ze série bójí rozmístěných po celém rovníkovém Pacifiku. Na každé bóji se měří 12 atributů počasí. 178080 Text Regrese 1999 Pacific Marine Environmental Laboratory
Datová sada sítě pro pozorování skleníkových plynů Časové řady koncentrací skleníkových plynů v 2921 buňkách mřížky v Kalifornii vytvořené pomocí simulací počasí. Žádný. 2921 Text Regrese 2015 D. Lucas
Atmosférický CO2 z kontinuálních vzorků vzduchu na observatoři Mauna Loa Průběžné vzorky vzduchu na Havaji v USA. 44 let rekordů. Žádný. 44 let Text Regrese 2001 Observatoř Mauna Loa
Datová sada Ionosphere Radarová data z ionosféry. Úkolem je klasifikovat na dobré a špatné návraty radaru. Mnoho radarových funkcí dáno. 351 Text Klasifikace 1989 Univerzita Johna Hopkinse
Datová sada pro detekci úrovně ozónu Dvě datové sady úrovně přízemního ozónu. Je dáno mnoho funkcí, včetně povětrnostních podmínek v době měření. 2536 Text Klasifikace 2008 K. Zhang a kol.

Sčítání lidu

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Dataset pro dospělé Data ze sčítání lidu z roku 1994 obsahující demografické rysy dospělých a jejich příjmy. Vyčištěno a anonymizováno. 48,842 Hodnoty oddělené čárkami Klasifikace 1996 United States Census Bureau
Příjem ze sčítání lidu (KDD) Vážená data ze sčítání lidu z aktuálních průzkumů populace z let 1994 a 1995 . Rozdělte do tréninkových a testovacích sad. 299 285 Hodnoty oddělené čárkami Klasifikace 2000 United States Census Bureau
Databáze sčítání IPUMS Data ze sčítání lidu z oblastí Los Angeles a Long Beach. Žádný 256 932 Text Klasifikace, regrese 1999 IPUMS
Data amerického sčítání lidu 1990 Dílčí údaje ze sčítání lidu USA v roce 1990. Výsledky randomizované a vybrané užitečné atributy. 2 458 285 Text Klasifikace, regrese 1990 United States Census Bureau

Tranzit

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada pro sdílení kol Hodinový a denní počet zapůjčení kol ve velkém městě. K dispozici je mnoho funkcí, včetně počasí, délky cesty atd. 17,389 Text Regrese 2013 H. Fanaee-T
Data výletu taxíkem v New Yorku Údaje o cestě pro žluté a zelené taxíky v New Yorku. Poskytuje místa vyzvednutí a odevzdání, ceny jízdného a další podrobnosti o cestách. 6 let Text Klasifikace, shlukování 2015 New York City Taxi and Limousine Commission
Trajektorie taxislužby ECML PKDD Trajektorie všech taxíků ve velkém městě. Mnoho funkcí, včetně počátečních a koncových bodů. 1 710 671 Text Shlukování, příčinné objevování 2015 M. Ferreira a kol.
METR-LA Rychlost ze smyčkových detektorů na dálnici Los Angeles County. Průměrná rychlost za 5 minut. 7 094 304 z 207 senzorů a 34 272 časových kroků Hodnoty oddělené čárkami Regrese, prognózy 2014 Jagadish a kol.
PeMS Rychlost, průtok, obsazenost a další metriky ze smyčkových detektorů a dalších senzorů na dálnici státu Kalifornie, USA. Metrika se obvykle agreguje pomocí průměru do časových kroků 5 minut. 39 000 jednotlivých detektorů, z nichž každý obsahuje roky časových řad Hodnoty oddělené čárkami Regrese, predikce, nowcasting, interpolace (aktualizováno v reálném čase) Kalifornské ministerstvo dopravy

Internet

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Webové stránky z Common Crawl 2012 Velká sbírka webových stránek a jejich propojení pomocí hypertextových odkazů Žádný. 3,5 B Text shlukování, klasifikace 2013 V. Granville
Datová sada internetových reklam Datová sada pro předpovídání, zda je daný obrázek reklama nebo ne. Funkce kódují geometrii reklam a frází vyskytujících se v adrese URL. 3279 Text Klasifikace 1998 N. Kushmerick
Datová sada využití internetu Obecná demografie uživatelů internetu. Žádný. 10 104 Text Klasifikace, shlukování 1999 D. Cook
Datová sada URL 120 dní dat URL z velké konference. U každé adresy URL je uvedeno mnoho funkcí. 2,396,130 Text Klasifikace 2009 J. Ma
Datová sada webů pro phishing Datová sada phishingových webů. Na každém webu je uvedeno mnoho funkcí. 2456 Text Klasifikace 2015 R. Mustafa a kol.
Online maloobchodní datová sada Online transakce pro britského online prodejce. Podrobnosti o každé dané transakci. 541 909 Text Klasifikace, shlukování 2015 D. Chen
Skládání témat zdarma na jednoduché téma Freebase je online snaha strukturovat veškeré lidské znalosti. Témata z Freebase byla extrahována. velký Text Klasifikace, shlukování 2011 Freebase
Datová sada zemědělských reklam Text reklam na farmy z webových stránek. Je uděleno binární schválení nebo nesouhlas vlastníků obsahu. Vypočtené řídké vektory SVMlight textových slov v reklamách. 4143 Text Klasifikace 2011 C. Masterharm a kol.

Hry

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Datová sada pokerové ruky 5 karet ze standardního balíčku 52 karet. Jsou uvedeny atributy každé ruky, včetně pokerových karet tvořených kartami, které obsahuje. 1 025 010 Text Regrese, klasifikace 2007 R. Cattral
Datová sada Connect-4 Obsahuje všechny legální 8vrstvé pozice ve hře connect-4, ve kterých zatím žádný z hráčů nevyhrál a ve kterých není vynucený další tah. Žádný. 67,557 Text Klasifikace 1995 J. Tromp
Datová sada šachů (King-Rook vs. King) Databáze Endgame pro White King a Rook proti Black King. Žádný. 28,056 Text Klasifikace 1994 M. Bain a kol.
Datová sada Chess (King-Rook vs. King-Pawn) Král+věž proti králi+pěšci na a7. Žádný. 3196 Text Klasifikace 1989 R. Holte
Datová sada koncových her Tic-Tac-Toe Binární klasifikace pro podmínky výhry v tic-tac-toe. Žádný. 958 Text Klasifikace 1991 D. Aha

Jiné vícerozměrné

Název datové sady Stručný popis Předzpracování Instance Formát Výchozí úkol Vytvořeno (aktualizováno) Odkaz Tvůrce
Sada dat bydlení Střední domácí hodnoty Bostonu s přidruženými atributy domova a sousedství. Žádný. 506 Text Regrese 1993 D. Harrison a kol.
Getty slovníky strukturovaná terminologie pro umění a další materiální kulturu, archivní materiály, vizuální náhrady a bibliografické materiály. Žádný. velký Text Klasifikace 2015 Centrum Getty
Yahoo! Úvodní stránka Dnes Modul Uživatel Klikněte na Protokol Protokol kliknutí uživatele pro zpravodajské články zobrazené na kartě Doporučené v modulu Today na Yahoo! Přední strana. Spojte analýzu s bilineárním modelem. 45 811 883 návštěv uživatelů Text Regrese, shlukování 2009 Chu a kol.
Britské oceánografické datové centrum Biologická, chemická, fyzikální a geofyzikální data pro oceány. Sledováno 22 tisíc proměnných. Rozličný. 22K proměnné, mnoho instancí Text Regrese, shlukování 2015 Britské oceánografické datové centrum
Datová sada záznamů o hlasování v Kongresu Údaje o hlasování pro všechny zástupce USA o 16 problémech. Kromě nezpracovaných dat o hlasování jsou k dispozici různé další funkce. 435 Text Klasifikace 1987 J. Schlimmer
Soubor údajů o doporučení Chicaga Záznam interakcí uživatelů se systémem doporučení Entree Chicago. Podrobně jsou zaznamenány podrobnosti o používání aplikace každým uživatelem. 50,672 Text Regrese, doporučení 2000 R. Burke
Benchmark pojišťovny (COIL 2000) Informace o zákaznících pojišťovací společnosti. Mnoho funkcí každého zákazníka a služeb, které používá. 9 000 Text Regrese, klasifikace 2000 P. van der Putten
Dataset školky Údaje od uchazečů do mateřských škol. Včetně údajů o rodině žadatele a různých dalších faktorech. 12 960 Text Klasifikace 1997 V. Rajkovic a kol.
Univerzitní datový soubor Data popisující přisuzovaná velkému počtu univerzit. Žádný. 285 Text Shlukování, klasifikace 1988 S. Sounders a kol.
Datová sada centra pro transfúzi krve Údaje ze střediska transfúze krve. Poskytuje údaje o míře návratnosti dárců, frekvenci atd. Žádný. 748 Text Klasifikace 2008 Ano
Zaznamenejte datovou sadu porovnávacích vzorů propojení Velká datová sada záznamů. Úkolem je propojit příslušné záznamy dohromady. Postup blokování byl použit k výběru pouze určitých párů záznamů. 5,749,132 Text Klasifikace 2011 University of Mainz
Datová sada Nomao Nomao shromažďuje data o místech z mnoha různých zdrojů. Úkolem je detekovat položky, které popisují stejné místo. Duplikáty označené. 34,465 Text Klasifikace 2012 Nomao Labs
Datová sada filmu Data pro 10 000 filmů. Pro každý film je uvedeno několik funkcí. 10 000 Text Shlukování, klasifikace 1999 G. Wiederhold
Otevřená datová sada University Learning Analytics Informace o studentech a jejich interakcích s virtuálním výukovým prostředím. Žádný. ~ 30 000 Text Klasifikace, shlukování, regrese 2015 J. Kuzilek a kol.
Záznamy z mobilního telefonu Telekomunikační aktivita a interakce Agregace podle buněk geografické mřížky a každých 15 minut. velký Text Klasifikace, shlukování, regrese 2015 G. Barlacchi a kol.

Upravená úložiště datových sad

Jelikož datové sady přicházejí v nesčetných formátech a jejich použití může být někdy obtížné, bylo vynaloženo značné úsilí na úpravu a standardizaci formátu datových sad, aby se usnadnilo jejich použití pro výzkum strojového učení.

  • OpenML: Webová platforma s rozhraními Python, R, Java a dalšími API pro stahování stovek datových sad strojového učení, vyhodnocování algoritmů na datových sadách a srovnávání výkonu algoritmů s desítkami dalších algoritmů.
  • PMLB: Velké, kurátorské úložiště srovnávacích datových sad pro hodnocení algoritmů strojového učení pod dohledem. Poskytuje datové sady klasifikace a regrese ve standardizovaném formátu, které jsou přístupné prostřednictvím rozhraní Python API.
  • Metatext NLP: https://metatext.io/datasets webové úložiště spravované komunitou, obsahující téměř 1000 srovnávacích datových sad a počítání. Poskytuje mnoho úkolů od klasifikace po QA a různé jazyky od angličtiny, portugalštiny až po arabštinu.
  • Appen : Off the Shelf and Open Source Datasets hosted and guaranteed by the company. Těchto zdrojů biologických, obrazových, fyzických, odpovědí na otázky, signálu, zvuku, textu a videa je více než 250 a lze je aplikovat na více než 25 různých případů použití.

Viz také

Reference