Seznam datových sad pro výzkum strojového učení - List of datasets for machine-learning research
Část série na |
Strojové učení a dolování dat |
---|
Tyto soubory dat se používají pro výzkum strojového učení a byly citovány v recenzovaných akademických časopisech. Datové sady jsou nedílnou součástí oblasti strojového učení. Zásadní pokroky v této oblasti mohou vyplývat z pokroků v algoritmech učení (jako je například hloubkové učení ), počítačovém hardwaru a, méně intuitivně, v dostupnosti vysoce kvalitních datových sad školení. Vysoce kvalitní značené tréninkové datové sady pro algoritmy strojového učení pod dohledem a částečně pod dohledem jsou obvykle obtížné a nákladné na výrobu z důvodu velkého času potřebného k označení dat. I když nemusí být označeny, může být také výroba vysoce kvalitních datových sad pro učení bez dozoru obtížná a nákladná.
Obrazová data
Datové sady sestávající hlavně z obrázků nebo videa k úkoly, jako je detekce objektů , rozpoznání obličeje , a klasifikace více štítků .
Rozpoznávání obličeje
V počítačovém vidění , byly obrazy obličejů široce používány k vývoji obličejové rozpoznávací systémy , detekce obličeje a mnoho dalších projektů, které používají obrazy obličejů.
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 videí od 200 jednotlivců, ~ 1 250 000 ručně komentovaných obrázků: komentováno z hlediska dimenzionálního ovlivnění (valenční vzrušení); divoké prostředí; databáze barev; různá rozlišení (průměr = 640x360) | detekované tváře, orientační body obličeje a anotace valenční vzrušení | ~ 1 250 000 ručně komentovaných obrázků | video (vizuální + zvukové modality) | ovlivnit rozpoznávání (odhad valence-vzrušení) | 2017 | CVPR
IJCV |
D. Kollias a kol. |
Aff-Wild2 | 558 videí od 458 jednotlivců, ~ 2 800 000 ručně komentovaných obrázků: komentováno z hlediska i) kategorického afektu (7 základních výrazů: neutrální, štěstí, smutek, překvapení, strach, znechucení, hněv); ii) rozměrový vliv (valenční vzrušení); iii) akční jednotky (AU 1,2,4,6,12,15,20,25); divoké prostředí; databáze barev; různá rozlišení (průměr = 1030x630) | detekované tváře, detekované a zarovnané tváře a poznámky | ~ 2 800 000 ručně komentovaných obrázků | video (vizuální + zvukové modality) | rozpoznávání vlivů (odhad valence-vzrušení, klasifikace základních výrazů, detekce akčních jednotek) | 2019 | BMVC
FG |
D. Kollias a kol. |
FERET (technologie rozpoznávání obličeje) | 11338 obrázků 1199 jednotlivců v různých pozicích a v různých časech. | Žádný. | 11,338 | snímky | Klasifikace, rozpoznávání tváří | 2003 | Ministerstvo obrany USA | |
Ryerson Audiovizuální databáze emoční řeči a písně (RAVDESS) | 7 356 obrazových a zvukových záznamů od 24 profesionálních herců. 8 emocí, každá ve dvou intenzitách. | Soubory označené výrazem. Hodnocení vnímání poskytlo 319 hodnotitelů. | 7,356 | Video, zvukové soubory | Klasifikace, rozpoznávání obličejů, rozpoznávání hlasu | 2018 | SR Livingstone a FA Russo | |
SCFace | Barevné obrázky tváří v různých úhlech. | Umístění rysů obličeje extrahováno. Souřadnice uvedených funkcí. | 4,160 | Obrázky, text | Klasifikace , rozpoznávání tváří | 2011 | M. Grgic a kol. | |
Databáze obličejů Yale | Tváře 15 jedinců v 11 různých výrazech. | Štítky výrazů. | 165 | snímky | Rozpoznávání obličejů | 1997 | J. Yang a kol. | |
Databáze výrazů kódovaná Cohn-Kanade AU | Velká databáze obrázků s popisky pro výrazy. | Sledování určitých rysů obličeje. | 500+ sekvencí | Obrázky, text | Analýza výrazu obličeje | 2000 | T. Kanade a kol. | |
Databáze výrazů obličeje JAFFE | 213 snímků 7 mimiky (6 základních výrazů obličeje + 1 neutrální) od 10 japonských modelek. | Obrázky jsou oříznuty do oblasti obličeje. Zahrnuje data sémantického hodnocení na štítcích emocí. | 213 | Obrázky, text | Poznání výrazu obličeje | 1998 | Lyons, Kamachi, Gyoba | |
FaceScrub | Obrázky osobností veřejného života vymazané z vyhledávání obrázků. | Jméno a anotace m/f. | 107,818 | Obrázky, text | Rozpoznávání obličejů | 2014 | H. Ng a kol. | |
Databáze obličejů BioID | Obrázky tváří s vyznačenými polohami očí. | Ručně nastavte polohy očí. | 1521 | Obrázky, text | Rozpoznávání obličejů | 2001 | BioID | |
Datová sada segmentace kůže | Náhodně vzorkované hodnoty barev z obrázků obličeje. | B, G, R, extrahované hodnoty. | 245,057 | Text | Segmentace, klasifikace | 2012 | R. Bhatt. | |
Bospor | 3D databáze obrazů obličeje. | Označeno 34 akčních jednotek a 6 výrazů; Označeno 24 obličejových orientačních bodů. | 4652 |
Obrázky, text |
Rozpoznávání obličejů, klasifikace | 2008 | Savran a kol. | |
UOY 3D-Face | neutrální tvář, 5 výrazů: vztek, štěstí, smutek, zavřené oči, zvednuté obočí. | Značení. | 5250 |
Obrázky, text |
Rozpoznávání obličejů, klasifikace | 2004 | University of York | |
Databáze obličejů CASIA 3D | Výrazy: Vztek, úsměv, smích, překvapení, zavřené oči. | Žádný. | 4624 |
Obrázky, text |
Rozpoznávání obličejů, klasifikace | 2007 | Ústav automatizace, Čínská akademie věd | |
CASIA NIR | Výrazy: Hněv Znechucení Strach Štěstí Smutek Překvapení | Žádný. | 480 | Komentované viditelné spektrum a blízké infračervené video zachycuje rychlostí 25 snímků za sekundu | Rozpoznávání obličejů, klasifikace | 2011 | Zhao, G. a kol. | |
BU-3DFE | neutrální tvář a 6 výrazů: hněv, štěstí, smutek, překvapení, znechucení, strach (4 úrovně). Extrahovány 3D obrázky. | Žádný. | 2 500 | Obrázky, text | Rozpoznání výrazu obličeje, klasifikace | 2006 | Binghamton University | |
Datová sada rozpoznávání tváří Grand Challenge | Až 22 vzorků pro každý subjekt. Projevy: vztek, štěstí, smutek, překvapení, znechucení, nafouknutí. 3D data. | Žádný. | 4007 | Obrázky, text | Rozpoznávání obličejů, klasifikace | 2004 | Národní institut pro standardy a technologie | |
Gavabdb | Až 61 vzorků pro každý subjekt. Výrazy neutrální tvář, úsměv, frontální zdůrazněný smích, frontální náhodné gesto. 3D obrázky. | Žádný. | 549 | Obrázky, text | Rozpoznávání obličejů, klasifikace | 2008 | Univerzita krále Juana Carlose | |
3D-RMA | Až 100 subjektů, výrazy většinou neutrální. Několik póz také. | Žádný. | 9971 | Obrázky, text | Rozpoznávání obličejů, klasifikace | 2004 | Královská vojenská akademie (Belgie) | |
SoF | 112 osob (66 mužů a 46 žen) nosí brýle za různých světelných podmínek. | Sada syntetických filtrů (rozostření, okluze, šum a posterizace) s různou úrovní obtížnosti. | 42 592 (2 662 původních obrázků × 16 syntetických obrázků) | Obrázky, soubor Mat | Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku a detekce brýlí | 2017 | Afifi, M. a kol. | |
IMDB-WIKI | IMDB a Wikipedia čelí obrázkům s označením pohlaví a věku. | Žádný | 523,051 | snímky | Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku | 2015 | R. Rothe, R. Timofte, LV Gool |
Rozpoznání akce
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada TV Human Interaction | Videa z 20 různých televizních pořadů pro předpovídání sociálních akcí: podání ruky, pětka, objetí, polibek a nic. | Žádný. | 6 766 videoklipů | videoklipy | Akční predikce | 2013 | Patron-Perez, A. a kol. | |
Multimodální databáze Berkeley Human Action Database (MHAD) | Záznamy jedné osoby provádějící 12 akcí | Předzpracování MoCap | 660 akčních vzorků | 8 PhaseSpace Motion Capture, 2 stereo kamery, 4 Quad kamery, 6 akcelerometrů, 4 mikrofony | Klasifikace akcí | 2013 | Ofli, F. a kol. | |
Datová sada THUMOS | Velká datová sada videa pro klasifikaci akcí. | Opatření klasifikovaná a označená. | 45 milionů snímků videa | Video, obrázky, text | Klasifikace, detekce akcí | 2013 | Y. Jiang a kol. | |
MEXAction2 | Datová sada videa pro lokalizaci a sledování akcí | Opatření klasifikovaná a označená. | 1000 | Video | Detekce akce | 2014 | Stoian a kol. |
Detekce a rozpoznávání objektů
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Vizuální genom | Obrázky a jejich popis | 108 000 | obrázky, text | Popisky obrázků | 2016 | R. Krishna a kol. | ||
Datová sada objektů Berkeley 3-D | 849 snímků pořízených v 75 různých scénách. Je označeno asi 50 různých tříd objektů. | Pole ohraničující objekty a označování. | 849 | označené obrázky, text | Rozpoznávání objektů | 2014 | A. Janoch a kol. | |
Sada dat segmentace Berkeley a benchmarky 500 (BSDS500) | 500 přirozených obrazů, výslovně rozdělených na nesouvislé vlakové, ověřovací a testovací podmnožiny + srovnávací kód. Na základě BSDS300. | Každý obrázek je v průměru segmentován pěti různými subjekty. | 500 | Segmentované obrázky | Detekce obrysů a hierarchická segmentace obrazu | 2011 | Kalifornská univerzita, Berkeley | |
Microsoft Common Objects in Context (COCO) | komplexní každodenní scény běžných předmětů v jejich přirozeném kontextu. | Zvýraznění, označení a klasifikace objektů do 91 typů objektů. | 2 500 000 | Označené obrázky, text | Rozpoznávání objektů | 2015 | T. Lin a kol. | |
SUN databáze | Velmi velká databáze rozpoznávání scén a objektů. | Místa a objekty jsou označeny. Objekty jsou segmentovány. | 131,067 | Obrázky, text | Rozpoznávání objektů, rozpoznávání scén | 2014 | J. Xiao a kol. | |
ImageNet | Databáze obrázků s označenými objekty, která se používá ve výzvě Image Recognition Challenge ve velkém měřítku ImageNet | Označené objekty, ohraničující rámečky, popisná slova, funkce SIFT | 14,197,122 | Obrázky, text | Rozpoznávání objektů, rozpoznávání scén | 2009 (2014) | J. Deng a kol. | |
Otevřete Obrázky | Velká sada obrázků s licencí CC BY 2.0 s popisky na úrovni obrázku a ohraničujícími rámečky zahrnujícími tisíce tříd. | Štítky na úrovni obrázku, ohraničující rámečky | 9,178,275 | Obrázky, text | Klasifikace, rozpoznávání objektů | 2017 | ||
Datová sada pro komerční detekci TV News Channel | Televizní reklamy a zpravodajství. | Funkce zvuku a videa extrahované ze statických obrázků. | 129 685 | Text | Shlukování, klasifikace | 2015 | P. Guha a kol. | |
Datová sada Statlog (Image Segmentation) | Instance byly náhodně vybrány z databáze 7 venkovních snímků a ručně segmentovány, aby byla vytvořena klasifikace pro každý pixel. | Spočítáno mnoho funkcí. | 2310 | Text | Klasifikace | 1990 | University of Massachusetts | |
Caltech 101 | Obrázky předmětů. | Jsou vyznačeny podrobné obrysy objektů. | 9146 | snímky | Klasifikace, rozpoznávání objektů. | 2003 | F. Li a kol. | |
Caltech-256 | Velká datová sada obrázků pro klasifikaci objektů. | Obrázky jsou kategorizovány a ručně tříděny. | 30 607 | Obrázky, text | Klasifikace, detekce objektů | 2007 | G. Griffin a kol. | |
Datová sada SIFT10M | Funkce SIFT datové sady Caltech-256. | Rozsáhlá extrakce funkcí SIFT. | 11,164,866 | Text | Klasifikace, detekce objektů | 2016 | X. Fu a kol. | |
LabelMe | Komentované obrázky scén. | Objekty načrtnuty. | 187 240 | Obrázky, text | Klasifikace, detekce objektů | 2005 | Laboratoř počítačové vědy a umělé inteligence MIT | |
Městská datová sada | Stereo videosekvence zaznamenané v pouličních scénách s anotacemi na úrovni pixelů. Metadata také zahrnuta. | Segmentace a označování na úrovni pixelů | 25 000 | Obrázky, text | Klasifikace, detekce objektů | 2016 | Daimler AG a kol. | |
Datová sada PASCAL VOC | Velké množství obrázků pro klasifikační úkoly. | Včetně štítku, ohraničovacího rámečku | 500 000 | Obrázky, text | Klasifikace, detekce objektů | 2010 | M. Everingham a kol. | |
CIFAR-10 Dataset | Mnoho malých obrázků s nízkým rozlišením 10 tříd objektů. | Třídy označené, vytvořeny rozdělení tréninkové sady. | 60 000 | snímky | Klasifikace | 2009 | A. Krizhevsky a kol. | |
Datová sada CIFAR-100 | Stejně jako CIFAR-10 výše, ale je dáno 100 tříd objektů. | Třídy označené, vytvořeny rozdělení tréninkové sady. | 60 000 | snímky | Klasifikace | 2009 | A. Krizhevsky a kol. | |
Datová sada CINIC-10 | Jednotný příspěvek CIFAR-10 a Imagenet s 10 třídami a 3 rozděleními. Větší než CIFAR-10. | Třídy označené, vytvořeny školení, validace, testovací sady. | 270 000 | snímky | Klasifikace | 2018 | Luke N.Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey | |
Móda-MNIST | Databáze módních produktů podobná MNIST | Třídy označené, vytvořeny rozdělení tréninkové sady. | 60 000 | snímky | Klasifikace | 2017 | Zalando SE | |
ne MNIST | Některá veřejně dostupná písma a extrahovaná glyfy z nich vytvořila datovou sadu podobnou MNIST. Existuje 10 tříd s písmeny AJ převzatými z různých písem. | Třídy označené, vytvořeny rozdělení tréninkové sady. | 500 000 | snímky | Klasifikace | 2011 | Jaroslav Bulatov | |
Datová sada německých referenčních hodnot pro detekci dopravních značek | Obrázky vozidel dopravních značek na německých silnicích. Tyto značky odpovídají normám OSN, a proto jsou stejné jako v jiných zemích. | Značky ručně označené | 900 | snímky | Klasifikace | 2013 | S Houben a kol. | |
Datová sada KITTI Vision Benchmark | Autonomní vozidla projíždějící městem střední velikosti zachytila snímky různých oblastí pomocí kamer a laserových skenerů. | Mnoho benchmarků extrahovaných z dat. | > 100 GB dat | Obrázky, text | Klasifikace, detekce objektů | 2012 | Geiger a kol. | |
Datová sada Linnaeus 5 | Obrázky 5 tříd předmětů. | Třídy označené, vytvořeny rozdělení tréninkové sady. | 8000 | snímky | Klasifikace | 2017 | Chaladze a Kalatozishvili | |
FieldSAFE | Multimodální datová sada pro detekci překážek v zemědělství včetně stereokamery, termokamery, webové kamery, 360stupňové kamery, lidaru, radaru a přesné lokalizace. | Třídy označené geograficky. | > 400 GB dat | Obrázky a 3D mračna bodů | Klasifikace, detekce objektů, lokalizace objektů | 2017 | M. Kragh a kol. | |
11K rukou | 11 076 ručních obrázků (1 600 x 1 200 pixelů) 190 subjektů různého věku od 18 do 75 let pro rozpoznávání pohlaví a biometrickou identifikaci. | Žádný | 11 076 ručních obrázků | Obrázky a soubory štítků (.mat, .txt a .csv) | Rozpoznávání pohlaví a biometrická identifikace | 2017 | M Afifi | |
CORe50 | Speciálně navržená pro kontinuální/celoživotní učení a rozpoznávání objektů je sbírka více než 500 videí (30 snímků za sekundu) z 50 domácích předmětů patřících do 10 různých kategorií. | Třídy označené, tréninkové sady rozděleny vytvořené na základě 3-way, multi-runs benchmarku. | 164 866 snímků RBG-D | obrázky (.png nebo .pkl)
a soubory štítků (.pkl, .txt, .tsv) |
Klasifikace, rozpoznávání objektů | 2017 | V. Lomonaco a D. Maltoni | |
OpenLORIS-Object | Datová sada Lifelong/Continuous Robotic Vision (OpenLORIS-Object) shromážděná skutečnými roboty s několika senzory s vysokým rozlišením obsahuje kolekci 121 objektových instancí (1. verze datové sady, 40 kategorií předmětů denní potřeby pod 20 scén). Datová sada důsledně zohledňuje 4 faktory prostředí v různých scénách, včetně osvětlení, okluze, velikosti pixelu objektu a nepořádku, a explicitně definuje úrovně obtížnosti každého faktoru. | Třídy označené, tréninkové/validační/testovací rozdělené sady vytvořené srovnávacími skripty. | 1 106 424 snímků RBG-D | obrázky (.png a .pkl)
a (.pkl) soubory štítků |
Klasifikace, celoživotní rozpoznávání objektů, robotická vize | 2019 | Q. Ona a kol. | |
Datový soubor THz a termální video | Tato multispektrální datová sada obsahuje terahertzová, termální, vizuální, blízká infračervená a trojrozměrná videa předmětů skrytých pod oblečením lidí. | K dispozici jsou 3D vyhledávací tabulky, které vám umožňují promítat obrázky do 3D mračen bodů. | Více než 20 videí. Délka každého videa je přibližně 85 sekund (přibližně 345 snímků). | AP2J | Experimenty s detekcí skrytých objektů | 2019 | Alexej A. Morozov a Olga S. Sushkova |
Rukopis a rozpoznávání znaků
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Dataset umělých postav | Uměle generovaná data popisující strukturu 10 velkých anglických písmen. | Souřadnice čar nakreslených jako celá čísla. Různé další funkce. | 6000 | Text | Rozpoznávání rukopisu, klasifikace | 1992 | H. Guvenir a kol. | |
Datová sada dopisů | Velká písmena tištěná písmena. | Ze všech obrázků je extrahováno 17 funkcí. | 20 000 | Text | OCR, klasifikace | 1991 | D. Slate a kol. | |
CASIA-HWDB | Offline ručně psaná databáze čínských znaků . 3755 tříd ve znakové sadě GB 2312 . | Obrázky ve stupních šedi s pixely na pozadí označenými jako 255. | 1,172,907 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2009 | CASIA | |
CASIA-OLHWDB | Online ručně psaná databáze čínských znaků shromážděná pomocí pera Anoto na papíře. 3755 tříd ve znakové sadě GB 2312 . | Poskytuje sekvence souřadnic tahů. | 1,174,364 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2009 | CASIA | |
Datová sada trajektorií znaků | Označené vzorky trajektorií hrotu pera pro lidi, kteří píší jednoduché znaky. | 3-dimenzionální matice trajektorie rychlosti hrotu pera pro každý vzorek | 2858 | Text | Rozpoznávání rukopisu, klasifikace | 2008 | B. Williams | |
Datová sada Chars74K | Rozpoznávání znaků v přirozených obrazech symbolů používaných v angličtině a kannadštině | 74 107 | Rozpoznávání znaků, rozpoznávání rukopisu, OCR, klasifikace | 2009 | T. de Campos | |||
Datová sada znaků UJI Pen | Izolované ručně psané znaky | Zadány souřadnice souřadnic polohy pera při psaní znaků. | 11 640 | Text | Rozpoznávání rukopisu, klasifikace | 2009 | F. Prat a kol. | |
Datová sada Gisette | Ukázky rukopisu z často zaměňovaných 4 a 9 postav. | Funkce extrahované z obrázků, rozdělené na vlak/test, ručně psané obrázky normalizované podle velikosti. | 13 500 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2003 | Yann LeCun a kol. | |
Datová sada Omniglot | 1623 různých ručně psaných znaků z 50 různých abeced. | Ručně značeno. | 38 300 | Obrázky, text, tahy | Klasifikace, jednorázové učení | 2015 | Americká asociace pro rozvoj vědy | |
Databáze MNIST | Databáze ručně psaných číslic. | Ručně značeno. | 60 000 | Obrázky, text | Klasifikace | 1998 | Národní institut pro standardy a technologie | |
Optické rozpoznávání datové sady ručně psaných číslic | Normalizované bitmapy ručně psaných dat. | Velikost normalizována a mapována na bitmapy. | 5620 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 1998 | E. Alpaydin a kol. | |
Rozpoznávání datové sady ručně psaných číslic perem | Ručně psané číslice na elektronickém peru-tabletu. | Vektory funkcí extrahované tak, aby byly rovnoměrně rozmístěny. | 10,992 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 1998 | E. Alpaydin a kol. | |
Datová sada ručně psaných číslic Semeion | Ručně psané číslice od 80 lidí. | Všechny ručně psané číslice byly normalizovány pro velikost a mapovány do stejné mřížky. | 1593 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2008 | T. Srl | |
HASYv2 | Ručně psané matematické symboly | Všechny symboly jsou vycentrovány a mají velikost 32 x 32 pixelů. | 168233 | Obrázky, text | Klasifikace | 2017 | Martin Thoma | |
Hlučná ručně psaná Bangla datová sada | Obsahuje ručně psaný číselný soubor dat (10 tříd) a základní znakový soubor dat (50 tříd), každý datový soubor má tři typy šumu: bílý gaussovský, pohybové rozostření a snížený kontrast. | Všechny obrázky jsou vycentrovány a mají velikost 32x32. | Datová sada čísel:
23330, Datová sada znaků: 76 000 |
Snímky,
text |
Rozpoznávání rukopisu,
klasifikace |
2017 | M. Karki a kol. |
Letecké snímky
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada segmentace leteckých snímků | 80 leteckých snímků s vysokým rozlišením s prostorovým rozlišením od 0,3 do 1,0. | Obrázky ručně segmentovány. | 80 | snímky | Letecká klasifikace, detekce objektů | 2013 | J. Yuan a kol. | |
Sada dat KIT AIS | Několik označených souborů školení a vyhodnocení leteckých snímků davů. | Obrázky ručně označené tak, aby ukazovaly cesty jednotlivců davy. | ~ 150 | Obrázky s cestami | Sledování lidí, letecké sledování | 2012 | M. Butenuth a kol. | |
Datová sada Wilt | Data dálkového průzkumu nemocných stromů a jiné krajinné pokrývky. | Extrahovány různé funkce. | 4899 | snímky | Klasifikace, detekce leteckých objektů | 2014 | B. Johnson | |
Datová sada MASATI | Námořní scény optických leteckých snímků z viditelného spektra. Obsahuje barevné obrázky v dynamickém mořském prostředí, každý obrázek může obsahovat jeden nebo více cílů v různých povětrnostních a světelných podmínkách. | Pole ohraničující objekty a označování. | 7389 | snímky | Klasifikace, detekce leteckých objektů | 2018 | AJ. Gallego a kol. | |
Datová sada mapování typu lesa | Satelitní snímky lesů v Japonsku. | Extrahovaná pásma vlnových délek obrazu. | 326 | Text | Klasifikace | 2015 | B. Johnson | |
Sada údajů o výzkumu režijních snímků | Komentované snímky nad hlavou. Obrázky s více objekty. | Více než 30 anotací a více než 60 statistik, které popisují cíl v kontextu obrázku. | 1000 | Obrázky, text | Klasifikace | 2009 | F. Tanner a kol. | |
SpaceNet | SpaceNet je korpus komerčních satelitních snímků a označených tréninkových dat. | Soubory GeoTiff a GeoJSON obsahující stopy budov. | > 17533 | snímky | Klasifikace, identifikace objektů | 2017 | DigitalGlobe, Inc. | |
Datová sada UC Merced Land Use | Tyto obrázky byly ručně extrahovány z velkých snímků ze sbírky snímků USGS National Map Urban Area Imagery pro různé městské oblasti v USA. | Jedná se o datový soubor 21 stupňů využití krajiny určený pro výzkumné účely. Pro každou třídu je 100 obrázků. | 2100 | Obrazové čipy 256 x 256, 30 cm (1 stopa) GSD | Klasifikace krajinného pokryvu | 2010 | Yi Yang a Shawn Newsam | |
Datová sada SAT-4 ve vzduchu | Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP). | SAT-4 má čtyři široké třídy krajinného pokryvu, zahrnuje neplodnou půdu, stromy, louky a třídu, která se skládá ze všech tříd krajinného pokryvu jiných než výše uvedené tři. | 500 000 | snímky | Klasifikace | 2015 | S. Basu a kol. | |
Datová sada SAT-6 ve vzduchu | Obrázky byly extrahovány z datové sady Národního programu pro zemědělství (NAIP). | SAT-6 má šest širokých tříd krajinných pokryvů, zahrnuje neplodnou půdu, stromy, louky, silnice, budovy a vodní plochy. | 405 000 | snímky | Klasifikace | 2015 | S. Basu a kol. |
Další obrázky
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada SUPATLANTIQUE | Obrázky naskenovaných oficiálních dokumentů a dokumentů Wikipedie | Žádný | 4908 | TIFF/pdf | Identifikace zdrojového zařízení, detekce padělání, klasifikace, .. | 2020 | C. Ben Rabah a kol. | |
Hustotní funkční teorie kvantové simulace grafenu | Značené obrázky surového vstupu do simulace grafenu | Nezpracovaná data (ve formátu HDF5) a výstupní štítky z kvantové simulace teorie funkční hustoty | 60744 testovacích a 501473 tréninkových souborů | Označené obrázky | Regrese | 2019 | K. Mills & I. Tamblyn | |
Kvantové simulace elektronu v dvojrozměrné potenciální jamce | Značené obrázky surového vstupu do simulace 2d kvantové mechaniky | Nezpracovaná data (ve formátu HDF5) a výstupní popisky z kvantové simulace | 1,3 milionu obrázků | Označené obrázky | Regrese | 2017 | K. Mills, MA Spanner a I. Tamblyn | |
Datová sada MPII o aktivitách vaření | Videa a obrázky z různých aktivit vaření. | Cesty a směry aktivit, popisky, jemnozrnné označení pohybu, třída aktivity, extrakce a označování statických obrázků. | 881 755 snímků | Označené video, obrázky, text | Klasifikace | 2012 | M. Rohrbach a kol. | |
Datová sada FAMOS | 5 000 unikátních mikrostruktur, všechny vzorky byly získány třikrát dvěma různými kamerami. | Původní soubory PNG, seřazené podle kamery a poté podle akvizice. Datové soubory MATLAB s jedním 16384 krát 5 000 matic na kameru na akvizici. | 30 000 | Obrázky a soubory .mat | Ověření | 2012 | S. Voloshynovskiy, et al. | |
Datová sada PharmaPack | 1 000 unikátních tříd s 54 obrázky na třídu. | Značení tříd, mnoho místních deskriptorů, jako je SIFT a aKaZE, a lokální agreatory, jako je Fisher Vector (FV). | 54 000 | Obrázky a soubory .mat | Klasifikace jemných zrn | 2017 | O. Taran a S. Rezaeifar, et al. | |
Datová sada Stanford Dogs | Obrázky 120 plemen psů z celého světa. | K dispozici jsou tréninkové/testovací rozdělení a anotace ImageNet. | 20 580 | Obrázky, text | Klasifikace jemných zrn | 2011 | A. Khosla a kol. | |
Datová sada StanfordExtra | 2D klíčové body a segmentace pro datovou sadu Stanford Dogs. | K dispozici jsou 2D klíčové body a segmentace. | 12,035 | Označené obrázky | 3D rekonstrukce/odhad pozice | 2020 | B. Biggs a kol. | |
Datová sada mazlíčků Oxford-IIIT | 37 kategorií mazlíčků se zhruba 200 obrázky každého z nich. | Plemeno označené, těsné ohraničovací pole, segmentace popředí a pozadí. | ~ 7 400 | Obrázky, text | Klasifikace, detekce objektů | 2012 | O. Parkhi a kol. | |
Datová sada funkcí Corel Image | Databáze obrázků s extrahovanými funkcemi. | Mnoho funkcí včetně barevného histogramu, textury souběžného výskytu a barevných momentů, | 68 040 | Text | Klasifikace, detekce objektů | 1999 | M. Ortega-Bindenberger a kol. | |
Datová sada online video charakteristik a času překódování. | Časy překódování pro různá různá videa a vlastnosti videa. | Uvedené funkce videa. | 168,286 | Text | Regrese | 2015 | T. Deneke a kol. | |
Datová sada Microsoft Sequential Image Narrative Dataset (SIND) | Datová sada pro sekvenční vidění do jazyka | Ke každé fotografii je uveden popisný popisek a vyprávění a fotografie jsou seřazeny v sekvencích | 81,743 | Obrázky, text | Vizuální vyprávění | 2016 | Microsoft Research | |
Datová sada Caltech-UCSD Birds-200-2011 | Velká datová sada obrázků ptáků. | Umístění dílů pro ptáky, ohraničovací rámečky, zadáno 312 binárních atributů | 11 788 | Obrázky, text | Klasifikace | 2011 | C. Wah a kol. | |
YouTube-8 mil | Velká a různorodá datová sada označených videí | ID videa na YouTube a související štítky z různorodého slovníku 4800 vizuálních entit | 8 milionů | Video, text | Klasifikace videa | 2016 | S. Abu-El-Haija a kol. | |
YFCC100M | Velká a různorodá označená datová sada obrázků a videí | Videa a obrázky na Flickru a související popis, názvy, tagy a další metadata (například EXIF a geotagy) | 100 miliónů | Video, obrázek, text | Klasifikace videa a obrazu | 2016 | B. Thomee a kol. | |
Diskrétní LIRIS-ACCEDE | Krátká videa komentovaná valencí a vzrušením. | Štítky valence a vzrušení. | 9800 | Video | Detekce emocí videa | 2015 | Y. Baveye a kol. | |
Nepřetržitý LIRIS-ACCEDE | Dlouhá videa komentovaná valencí a vzrušením a zároveň shromažďující galvanickou reakci na kůži. | Štítky valence a vzrušení. | 30 | Video | Detekce emocí videa | 2015 | Y. Baveye a kol. | |
MediaEval LIRIS-ACCEDE | Rozšíření Discrete LIRIS-ACCEDE včetně anotací úrovní násilí ve filmech. | Štítky násilí, valence a vzrušení. | 10900 | Video | Detekce emocí videa | 2015 | Y. Baveye a kol. | |
Leeds Sports Pose | Kloubové anotace lidské pózy ve 2 000 přirozených sportovních snímcích z Flickru. | Hrubý výřez kolem jedné zajímavé osoby se 14 společnými štítky | 2000 | Obrázky plus štítky souborů .mat | Odhad lidské pózy | 2010 | S. Johnson a M. Everingham | |
Rozšířený trénink Leeds Sports Pose | Kloubové anotace lidské pózy na 10 000 přírodních sportovních snímků z Flickru. | 14 společných štítků prostřednictvím crowdsourcingu | 10 000 | Obrázky plus štítky souborů .mat | Odhad lidské pózy | 2011 | S. Johnson a M. Everingham | |
Datová sada MCQ | 6 různých skutečných zkoušek založených na více možnostech (735 odpovědních listů a 33 540 odpovědních políček) k hodnocení technik a systémů počítačového vidění vyvinutých pro systémy hodnocení testů s výběrem odpovědí. | Žádný | 735 odpovědí a 33 540 odpovědí | Obrázky a popisky souborů .mat | Vývoj systémů pro hodnocení testů s výběrem odpovědí | 2017 | Afifi, M. a kol. | |
Sledovací videa | Skutečná sledovací videa pokrývají velkou dobu sledování (7 dní po 24 hodinách). | Žádný | 19 sledovacích videí (7 dní po 24 hodinách). | Videa | Komprese dat | 2016 | Taj-Eddin, IATF a kol. | |
LILA BC | Značená informační knihovna Alexandrie: biologie a ochrana. Označené obrázky, které podporují výzkum strojového učení kolem ekologie a environmentální vědy. | Žádný | ~ 10 milionů obrázků | snímky | Klasifikace | 2019 | Pracovní skupina LILA | |
Můžeme vidět fotosyntézu? | 32 videí pro osm živých a osm mrtvých listů zaznamenaných za světelných podmínek DC i AC. | Žádný | 32 videí | Videa | Detekce živosti rostlin | 2017 | Taj-Eddin, IATF a kol. |
Textová data
Datové sady sestávající převážně z textu pro úkoly, jako je zpracování přirozeného jazyka , analýza sentimentu , překlady a klastrová analýza .
Recenze
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Recenze Amazonu | Recenze produktů USA z Amazon.com . | Žádný. | 233,1 milionu | Text | Klasifikace, analýza sentimentu | 2015 (2018) | McAuley a kol. | |
OpinRank Review Dataset | Recenze automobilů a hotelů z webu Edmunds.com a TripAdvisor . | Žádný. | 42 230 / ~ 259 000, resp | Text | Analýza sentimentu, shlukování | 2011 | K. Ganesan a kol. | |
Objektiv MovieLens | 22 000 000 hodnocení a 580 000 značek bylo použito na 33 000 filmů od 240 000 uživatelů. | Žádný. | ~ 22 mil | Text | Regrese, shlukování, klasifikace | 2016 | GroupLens Research | |
Yahoo! Hodnocení uživatelů hudby hudebních umělců | Více než 10 milionů hodnocení umělců od uživatelů Yahoo. | Žádný popsán. | ~ 10 mil | Text | Shlukování, regrese | 2004 | Yahoo! | |
Sada dat pro hodnocení automobilů | Vlastnosti auta a jejich celková přijatelnost. | Je uvedeno šest kategorických funkcí. | 1728 | Text | Klasifikace | 1997 | M. Bohanec | |
Datová sada preferencí Comedy Slam | Údaje o hlasování uživatelů pro dvojice videí zobrazených na YouTube. Uživatelé hlasovali pro zábavnější videa. | Jsou zadána metadata videa. | 1,138,562 | Text | Klasifikace | 2012 | ||
Datová sada uživatelských recenzí Skytrax | Uživatelské recenze leteckých společností, letišť, sedadel a salonků od společnosti Skytrax. | Hodnocení jsou jemná a zahrnují mnoho aspektů letištních zkušeností. | 41396 | Text | Klasifikace, regrese | 2015 | Q. Nguyen | |
Dataset hodnocení pedagogického asistenta | Recenze asistenta pedagoga. | Jsou uvedeny vlastnosti každé instance, jako je třída, velikost třídy a instruktor. | 151 | Text | Klasifikace | 1997 | W. Loh a kol. | |
Korpus zpětné vazby vietnamských studentů (UIT-VSFC) | Zpětná vazba studentů. | Komentáře | 16 000 | Text | Klasifikace | 1997 | Nguyen a kol. | |
Vietnamese Social Media Emotion Corpus (UIT-VSMEC) | Komentáře uživatelů na Facebooku. | Komentáře | 6927 | Text | Klasifikace | 1997 | Nguyen a kol. | |
Datový soubor pro detekci stížností na vietnamskou otevřenou doménu (ViOCD) | Recenze produktů zákazníků | Komentáře | 5 485 | Text | Klasifikace | 2021 | Nguyen a kol. |
Novinové články
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada NYSK | Anglické zpravodajské články o případu týkajícím se obvinění ze sexuálního napadení bývalého ředitele MMF Dominique Strauss-Kahna . | Filtrováno a prezentováno ve formátu XML. | 10 421 | XML, text | Analýza sentimentu, extrakce tématu | 2013 | Dermouche, M. a kol. | |
Korpus Reuters, svazek 1 | Velký korpus novinek Reuters v angličtině. | Kategorizace jemných zrn a kódy témat. | 810 000 | Text | Klasifikace, shlukování, sumarizace | 2002 | Reuters | |
Korpus svazku 2 agentury Reuters | Velký korpus novinek Reuters ve více jazycích. | Kategorizace jemných zrn a kódy témat. | 487 000 | Text | Klasifikace, shlukování, sumarizace | 2005 | Reuters | |
Sbírka výzkumu textu Thomson Reuters | Velký korpus novinek. | Podrobnosti nejsou popsány. | 1 800 370 | Text | Klasifikace, shlukování, sumarizace | 2009 | T. Rose a kol. | |
Saúdské noviny Corpus | 31 030 článků v arabských novinách. | Extrahována metadata. | 31 030 | JSON | Shrnutí, shlukování | 2015 | M. Alhagri | |
RE3D (datová sada pro vyhodnocení extrakce vztahů a entit) | Entita a vztah označila data z různých zpravodajských a vládních zdrojů. Sponzorováno společností Dstl | Filtrováno, kategorizace pomocí typů Baleen | neznámý | JSON | Rozpoznání klasifikace, entity a vztahu | 2017 | Dstl | |
Zkoušející Spam Clickbait Katalog | Clickbait, spam, titulky z davu od roku 2010 do roku 2015 | Publikovat datum a titulky | 3,089,781 | CSV | Shlukování, události, sentiment | 2016 | R. Kulkarni | |
ABC Australia News Corpus | Celý zpravodajský korpus ABC Australia od roku 2003 do roku 2019 | Publikovat datum a titulky | 1,186,018 | CSV | Shlukování, události, sentiment | 2020 | R. Kulkarni | |
Celosvětové zprávy - souhrn 20 000 kanálů | Týdenní snímek všech online titulků ve více než 20 jazycích | Čas publikování, adresa URL a titulky | 1 398 431 | CSV | Shlukování, události, detekce jazyků | 2018 | R. Kulkarni | |
Reuters News Wire Headline | 11 let časově označených událostí zveřejněných na zpravodajském drátu | Čas publikování, text nadpisu | 16,121,310 | CSV | NLP, Výpočetní lingvistika, Události | 2018 | R. Kulkarni | |
The Irish Times Ireland News Corpus | Novinky 24 let Irska od roku 1996 do roku 2019 | Čas publikování, kategorie nadpisu a text | 1,484,340 | CSV | NLP, Výpočetní lingvistika, Události | 2020 | R. Kulkarni | |
Datový soubor novinek pro detekci sarkasmu | Vysoce kvalitní datová sada s titulky novinek Sarcastic a Non sarcastic. | Čistý, normalizovaný text | 26 709 | JSON | NLP, klasifikace, lingvistika | 2018 | Rishabh Misra |
Zprávy
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada e -mailů Enron | E -maily od zaměstnanců společnosti Enron jsou uspořádány do složek. | Přílohy odstraněny, neplatné e -mailové adresy převedeny na user@enron.com nebo no_address@enron.com. | ~ 500 000 | Text | Analýza sítě, analýza sentimentu | 2004 (2015) | Klimt, B. a Y. Yang | |
Datová sada Ling-Spam | Korpus obsahující legitimní i nevyžádané e -maily. | Čtyři verze korpusu zahrnující, zda byl povolen lemmatiser nebo stop-list. | 2 412 šunky 481 spam | Text | Klasifikace | 2000 | Androutsopoulos, J. a kol. | |
Datová sada shromažďování spamu SMS | Shromážděné nevyžádané zprávy SMS. | Žádný. | 5574 | Text | Klasifikace | 2011 | T. Almeida a kol. | |
Datová sada Dvacet diskusních skupin | Zprávy z 20 různých diskusních skupin. | Žádný. | 20 000 | Text | Zpracování přirozeného jazyka | 1999 | T. Mitchell a kol. | |
Datová sada Spambase | Spamové e -maily. | Extrahováno mnoho textových funkcí. | 4,601 | Text | Detekce spamu, klasifikace | 1999 | M. Hopkins a kol. | |
Datová sada ColBERT | Krátké vtipy. | Odlehlé hodnoty byly odstraněny. | 200 000 | Text | Detekce humoru, klasifikace | 2020 | I. Annamoradnejad. |
Twitter a tweety
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Filmové tweety | Datová sada hodnocení filmů založená na veřejných a dobře strukturovaných tweetech | ~ 710 000 | Text | Klasifikace, regrese | 2018 | S. Dooms | ||
Twitter 100 tis | Páry obrázků a tweetů | 100 000 | Text a obrázky | Vyhledávání napříč médii | 2017 | Y. Hu, et al. | ||
Sentiment 140 | Tweetujte data z roku 2009 včetně původního textu, časového razítka, uživatele a sentimentu. | Zařazeno pomocí vzdáleného dohledu z přítomnosti emotikonu v tweetu. | 1 578 627 | Tweety, čárka, oddělené hodnoty | Analýza sentimentu | 2009 | A. Go a kol. | |
Datová sada Twitter ASU | Data sítě Twitter, nikoli skutečné tweety. Ukazuje spojení mezi velkým počtem uživatelů. | Žádný. | 11 316 811 uživatelů, 85 331 846 připojení | Text | Shlukování, analýza grafů | 2009 | R. Zafarani a kol. | |
SNAP Social Circles: Twitterová databáze | Velká data sítě Twitter. | Funkce uzlů, kruhy a sítě ega. | 1 768 149 | Text | Shlukování, analýza grafů | 2012 | J. McAuley a kol. | |
Datová sada Twitter pro analýzu arabských sentimentů | Arabské tweety. | Vzorky ručně označené jako pozitivní nebo negativní. | 2000 | Text | Klasifikace | 2014 | N. Abdulla | |
Buzz v datové sadě sociálních médií | Data z Twitteru a Tom's Hardware. Tato datová sada se zaměřuje na konkrétní témata buzz, o nichž se na těchto webech diskutuje. | Data jsou umístěna v okně, aby se uživatel mohl pokusit předpovědět události, které vedly k buzeraci sociálních médií. | 140 000 | Text | Regrese, klasifikace | 2013 | F. Kawala a kol. | |
Parafráze a sémantická podobnost na Twitteru (PIT) | Tato datová sada se zaměřuje na to, zda tweety mají (téměř) stejný význam/informace nebo ne. Ručně označeno. | tokenizace, mluvené slovo a označování pojmenovaných entit | 18,762 | Text | Regrese, klasifikace | 2015 | Xu a kol. | |
Geoparse Twitter benchmark dataset | Tato datová sada obsahuje tweety během různých zpravodajských událostí v různých zemích. Ručně označené umístění zmiňuje. | anotace umístění přidané do metadat JSON | 6 386 | Tweety, JSON | Klasifikace, extrakce informací | 2014 | SE Middleton a kol. | |
Nizozemská sbírka sociálních médií | Tato datová sada obsahuje tweety COVID-19 vytvořené holandskými mluvčími nebo uživateli z Nizozemska. Data byla strojově anotována | klasifikováno pro sentiment, text tweetu a popis uživatele přeloženo do angličtiny. Extrahují se zmínky o průmyslu | 271 342 | JSONL | Sentiment, klasifikace více štítků, strojový překlad | 2020 | Aaaksh Gupta, CoronaProč |
Dialogy
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
NPS Chat Corpus | Příspěvky z online chatovacích místností specifických pro věk. | Ochrana soukromí rukou maskována, označena pro část řeči a dialogu. | ~ 500 000 | XML | NLP, programování, lingvistika | 2007 | Forsyth, E., Lin, J., & Martell, C. | |
Triple Corpus na Twitteru | ABA ztrojnásobila z Twitteru. | 4,232 | Text | NLP | 2016 | Sordini, A. a kol. | ||
Použijte síť Corpus | Příspěvky na fóru UseNet. | Anonymizované e-maily a adresy URL. Vynechané dokumenty s délkou <500 slov nebo> 500 000 slov, nebo které byly z <90% angličtiny. | 7 miliard | Text | 2011 | Shaoul, C., a Westbury C. | ||
NUS SMS Corpus | SMS zprávy shromážděné mezi dvěma uživateli s časovou analýzou. | ~ 10 000 | XML | NLP | 2011 | KAN, M | ||
Reddit Všechny komentáře Corpus | Všechny komentáře Reddit (od roku 2015). | ~ 1,7 miliardy | JSON | NLP, výzkum | 2015 | Stuck_In_the_Matrix | ||
Ubuntu Dialogue Corpus | Dialogy extrahované ze streamu chatu Ubuntu na IRC. | CSV | Výzkum dialogových systémů | 2015 | Lowe, R. a kol. | |||
Dialogová výzva ke sledování stavu | Dialog State Tracking Challenges 2 & 3 (DSTC2 & 3) byly výzkumnou výzvou zaměřenou na zlepšení současného stavu ve sledování stavu systémů mluvených dialogů. | Přepis mluvených dialogů s označováním | DSTC2 obsahuje ~ 3,2k volání - DSTC3 obsahuje ~ 2,3k volání | JSON | Sledování stavu dialogu | 2014 | Henderson, Matthew a Thomson, Blaise a Williams, Jason D. |
Jiný text
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada Web of Science | Hierarchické datové sady pro klasifikaci textu | Žádný. | 46,985 | Text | Klasifikace,
Kategorizace |
2017 | K. Kowsari a kol. | |
Právní případové zprávy | Případy federálního soudu v Austrálii v letech 2006 až 2009. | Žádný. | 4 000 | Text | Shrnutí,
citační analýza |
2012 | F. Galgani a kol. | |
Blogger Authorship Corpus | Záznamy blogu 19 320 lidí z blogger.com. | Blogger si sám určil pohlaví, věk, obor a astrologické znamení. | 681 288 | Text | Analýza sentimentu, sumarizace, klasifikace | 2006 | J. Schler a kol. | |
Sociální struktura sítí Facebook | Velký datový soubor sociální struktury Facebooku. | Žádný. | Zahrnuto 100 vysokých škol | Text | Síťová analýza, klastrování | 2012 | A. Traud a kol. | |
Datová sada pro strojové porozumění textu | Příběhy a související otázky pro testování porozumění textu. | Žádný. | 660 | Text | Zpracování přirozeného jazyka, strojové porozumění | 2013 | M. Richardson a kol. | |
Projekt Penn Treebank | Přirozeně se vyskytující text anotovaný pro lingvistickou strukturu. | Text je analyzován do sémantických stromů. | ~ 1 milion slov | Text | Zpracování přirozeného jazyka, sumarizace | 1995 | M. Marcus a kol. | |
Datová sada DEXTER | Zadaným úkolem je určit z uvedených funkcí, které články jsou o akvizicích společností. | Extrahované funkce zahrnují stopky slov. Součástí jsou rušivé prvky. | 2 600 | Text | Klasifikace | 2008 | Reuters | |
Knihy Google v gramech | N-gramů z velmi velkého korpusu knih | Žádný. | 2,2 TB textu | Text | Klasifikace, shlukování, regrese | 2011 | ||
Personae Corpus | Shromážděno pro experimenty v autorské atribuci a predikci osobnosti. Skládá se ze 145 esejů v holandštině. | Kromě běžných textů jsou uvedeny i syntakticky komentované texty. | 145 | Text | Klasifikace, regrese | 2008 | K. Luyckx a kol. | |
Datová sada CNAE-9 | Kategorizační úkol pro volné textové popisy brazilských společností. | Frekvence slov byla extrahována. | 1080 | Text | Klasifikace | 2012 | P. Ciarelli a kol. | |
Datová sada Sentiment Labeled Sentences | 3000 sentimentem označených vět. | Sentiment každé věty byl ručně označen jako pozitivní nebo negativní. | 3000 | Text | Klasifikace, analýza sentimentu | 2015 | D. Kotzias | |
Datová sada BlogFeedback | Datová sada pro předpovídání počtu komentářů, které příspěvek obdrží na základě funkcí daného příspěvku. | Extrahováno mnoho funkcí každého příspěvku. | 60,021 | Text | Regrese | 2014 | K. Buza | |
Stanfordský přirozený jazykový závěr (SNLI) Corpus | Obrazové titulky spárované s nově vytvořenými větami vytvářející entuziazmus, rozpor nebo neutrální páry. | Štítky třídy útěků, syntaktická analýza analyzátorem Stanford PCFG | 570 000 | Text | Vyvozování přirozeného jazyka/rozpoznávání textových souvislostí | 2015 | S. Bowman a kol. | |
Kolekce DSL Corpus (DSLCC) | Vícejazyčná sbírka krátkých ukázek novinářských textů v podobných jazycích a dialektech. | Žádný | 294 000 frází | Text | Diskriminace mezi podobnými jazyky | 2017 | Tan, Liling a kol. | |
Datový soubor městského slovníku | Korpus slov, hlasů a definic | Anonymita uživatelských jmen | 2 580 925 | CSV | NLP, strojové porozumění | 2016 květen | Anonymní | |
T rex | Abstrakty Wikipedie zarovnané s entitami Wikidata | Zarovnání Wikidata se ztrojnásobuje s abstrakty Wikipedie | 11M zarovnáno trojnásobek | JSON a NIF [2] | NLP, extrakce relací | 2018 | H. Elsahar a kol. | |
Obecné jazykové hodnocení (GLUE) | Srovnávací test devíti úkolů | Rozličný | ~ 1 milion vět a větných dvojic | NLU | 2018 | Wang a kol. | ||
Contract Understanding Atticus Dataset (CUAD) (dříve známý jako Atticus Open Contract Dataset (AOK)) | Datová sada právních smluv s bohatými odbornými anotacemi | ~ 13 000 štítků | CSV a PDF | Zpracování přirozeného jazyka, QnA | 2021 | Projekt Atticus | ||
Datová sada titulků vietnamských obrázků (UIT-ViIC) | Datová sada vietnamských titulků pro obrázky | 19 250 titulků pro 3 850 obrázků | CSV a PDF | Zpracování přirozeného jazyka, počítačové vidění | 2020 | Lam a kol. | ||
Vietnamská jména anotovaná pohlavími (UIT-ViNames) | Vietnamská jména komentovaná rodem | 26 850 vietnamských celých jmen opatřených anotacemi podle pohlaví | CSV | Zpracování přirozeného jazyka | 2020 | To et al. | ||
Datová sada pro vietnamskou konstruktivní a toxickou řeč (UIT-ViCTSD) | Datová sada pro vietnamskou konstruktivní a toxickou řeč | 10 000 komentářů vietnamských uživatelů k online novinám na 10 doménách | CSV | Zpracování přirozeného jazyka | 2021 | Nguyen a kol. | ||
Datová sada ColBERT | Krátké vtipy. | Odlehlé hodnoty byly odstraněny. | 200 000 | Text | Detekce humoru, klasifikace | 2020 | Annamoradnejad a kol. |
Zvuková data
Datové sady zvuků a zvukových funkcí.
Mluvený projev
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Spontánní řeč (anglicky), Přečtěte si řeč (Xitsonga). | surová vlna | Angličtina: 5h, 12 reproduktorů; Xitsonga: 2:30; 24 reproduktorů | zvuk | Zjišťování funkcí řeči/podslovních jednotek/slovních jednotek bez dozoru | 2015 | Versteegh a kol. | |
Datová sada Parkinsonovy řeči | Několik záznamů lidí s Parkinsonovou nemocí i bez ní. | Extrahované hlasové funkce, nemoc hodnocená lékařem pomocí jednotné stupnice hodnocení Parkinsonovy choroby | 1040 | Text | Klasifikace, regrese | 2013 | BE Sakar a kol. | |
Mluvené arabské číslice | Mluvené arabské číslice od 44 mužů a 44 žen. | Časové řady koeficientů cepstrumu kmitočtu mel . | 8800 | Text | Klasifikace | 2010 | M. Bedda a kol. | |
Datová sada ISOLET | Mluvená jména písmen. | Funkce extrahované ze zvuků. | 7797 | Text | Klasifikace | 1994 | R. Cole a kol. | |
Datová sada japonských samohlásek | Devět mužských řečníků proneslo postupně dvě japonské samohlásky. | Aplikovala na něj 12stupňovou lineární predikční analýzu, aby získala diskrétní časovou řadu s 12 koeficienty cepstrum. | 640 | Text | Klasifikace | 1999 | M. Kudo a kol. | |
Datová sada Parkinsonova telemonitorování | Několik záznamů lidí s Parkinsonovou nemocí i bez ní. | Extrahovány zvukové funkce. | 5875 | Text | Klasifikace | 2009 | A. Tsanas a kol. | |
TIMIT | Záznamy 630 mluvčích osmi hlavních dialektů americké angličtiny, z nichž každý čte deset foneticky bohatých vět. | Řeč je přepsána lexikálně a fonemicky. | 6300 | Text | Rozpoznávání řeči, klasifikace. | 1986 | J. Garofolo a kol. | |
Arabský řečový korpus | Jeden reproduktor, Modern Standard Arabic (MSA) řečový korpus s fonetickými a ortografickými přepisy zarovnanými na úroveň fonému | Řeč je ortograficky a foneticky přepisována značkami napětí. | ~ 1900 | Text, WAV | Syntéza řeči, Rozpoznávání řeči, Zarovnání korpusu, Logopedie, Vzdělávání. | 2016 | N. Halabi | |
Společný hlas | Public domain databáze crowdsourcovaných dat v celé řadě dialektů. | Ověření ostatními uživateli | Angličtina: 1 118 hodin | MP3 s odpovídajícími textovými soubory | Rozpoznávání řeči | Červen 2017 (prosinec 2019) | Mozilla |
Hudba
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Geografický původ sady hudebních dat | Zvukové funkce hudebních ukázek z různých míst. | Zvukové funkce extrahované pomocí softwaru MARSYAS. | 1059 | Text | Geografická klasifikace, shlukování | 2014 | F. Zhou a kol. | |
Datová sada Million Song | Funkce zvuku z milionu různých skladeb. | Extrahovány zvukové funkce. | 1 mil | Text | Klasifikace, shlukování | 2011 | T. Bertin-Mahieux a kol. | |
MUSDB18 | Vícestopé populární hudební nahrávky | Surový zvuk | 150 | MP4, WAV | Separace zdroje | 2017 | Z. Rafii a kol. | |
Zdarma hudební archiv | Zvuk pod Creative Commons ze 100 000 skladeb (343 dní, 1 TB) s hierarchií 161 žánrů, metadat, uživatelských dat, volného textu. | Surový zvuk a zvukové funkce. | 106,574 | Text, MP3 | Klasifikace, doporučení | 2017 | M. Defferrard a kol. | |
Datová sada Bach Choral Harmony | Bachovy chorály. | Extrahovány zvukové funkce. | 5665 | Text | Klasifikace | 2014 | D. Radicioni a kol. |
Jiné zvuky
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
UrbanSound | Označené zvukové záznamy zvuků, jako jsou klimatizace, klaksony a hrající si děti. | Seřazeno do složek podle třídy událostí a také metadat v souboru JSON a anotací v souboru CSV. | 1059 | Zvuk
( WAV ) |
Klasifikace | 2014 | J. Salamon a kol. | |
AudioSet | 10sekundové zvukové úryvky z videí na YouTube a ontologie s více než 500 štítky. | 128-d funkce PCA'd VGG-ish každou 1 sekundu. | 2,084,320 | Textové (CSV) a soubory TensorFlow Record | Klasifikace | 2017 | J. Gemmeke a kol., Google | |
Výzva k detekci zvuku ptáků | Zvuk z monitorovacích stanic životního prostředí a nahrávky davu | 17 000+ | Klasifikace | 2016 (2018) | Queen Mary University a IEEE Signal Processing Society | |||
Okolní směsi WSJ0 Hipster | Zvuk z WSJ0 smíchaný s hlukem zaznamenaným v oblasti San Francisco Bay Area | Hlukové klipy odpovídají klipům WSJ0 | 28 000 | Zvuk ( WAV ) | Oddělení zvukového zdroje | 2019 | Wichern, G. a kol., Whisper a MERL | |
Clotho | 4 981 zvukových ukázek o délce 15 až 30 sekund, každý zvukový vzorek má pět různých titulků o délce osm až 20 slov. | 24 905 | Zvuk ( WAV ) a text ( CSV ) | Automatické zvukové titulky | 2020 | K. Drossos, S. Lipping a T. Virtanen |
Signální data
Datové sady obsahující informace o elektrickém signálu vyžadující nějaký druh zpracování signálu pro další analýzu.
Elektrický
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datový soubor Witty Worm | Datová sada popisující šíření červa Witty a infikovaných počítačů. | Rozdělte na veřejně dostupnou sadu a omezenou sadu obsahující citlivější informace, jako jsou záhlaví IP a UDP. | 55 909 IP adres | Text | Klasifikace | 2004 | Centrum pro aplikovanou internetovou analýzu dat | |
Datový soubor pro odhad krevního tlaku bez manžety | Vyčištěné vitální signály od lidských pacientů, které lze použít k odhadu krevního tlaku. | Byly vyčištěny 125 Hz vitální funkce. | 12 000 | Text | Klasifikace, regrese | 2015 | M. Kachuee a kol. | |
Datová sada pole senzorů plynu | Měření ze 16 chemických senzorů použitých v simulacích pro kompenzaci driftu. | Rozsáhlý počet daných funkcí. | 13 910 | Text | Klasifikace | 2012 | A. Vergara | |
Servo datová sada | Data pokrývající nelineární vztahy pozorované v obvodu servozesilovače. | Jsou uvedeny úrovně různých složek jako funkce ostatních složek. | 167 | Text | Regrese | 1993 | K. Ullrich | |
Datová sada UJIIndoorLoc-Mag | Vnitřní lokalizační databáze pro testování vnitřních polohovacích systémů. Data jsou založena na magnetickém poli. | Dané tréninkové a testovací mezery. | 40 000 | Text | Klasifikace, regrese, shlukování | 2015 | D. Rambla a kol. | |
Datová sada diagnostiky pohonu bez čidel | Elektrické signály z motorů s vadnými součástmi. | Extrahovány statistické funkce. | 58 508 | Text | Klasifikace | 2015 | M. Bator |
Sledování pohybu
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Wearable Computing: Klasifikace držení těla a pohybů (PUC-Rio) | Lidé provádějící pět standardních akcí při sledování pohybu. | Žádný. | 165,632 | Text | Klasifikace | 2013 | Papežská katolická univerzita v Rio de Janeiru | |
Datová sada segmentace gest | Funkce extrahované z videa lidí, kteří dělají různá gesta. | Extrahované funkce se zaměřují na studium segmentace fází gest. | 9900 | Text | Klasifikace, shlukování | 2014 | R. Madeo a kol | |
Datová sada datové sady fyzických akcí Vicon | 10 normálních a 10 agresivních fyzických akcí, které měří lidskou aktivitu sledovanou 3D trackerem. | Mnoho parametrů zaznamenává 3D tracker. | 3000 | Text | Klasifikace | 2011 | T. Theodoridis | |
Datová sada denních a sportovních aktivit | Data senzoru motoru pro 19 denních a sportovních aktivit. | Bylo dáno mnoho senzorů, žádné předzpracování signálů. | 9120 | Text | Klasifikace | 2013 | B. Barshan a kol. | |
Rozpoznávání lidské činnosti pomocí datové sady chytrých telefonů | Data gyroskopu a akcelerometru od lidí, kteří nosí chytré telefony a provádějí běžné akce. | Provedené akce jsou označeny, všechny signály jsou předem zpracovány na šum. | 10,299 | Text | Klasifikace | 2012 | J. Reyes-Ortiz a kol. | |
Znaky australského znakového jazyka | Australské znaky znakové řeči zachycené rukavicemi pro sledování pohybu. | Žádný. | 2565 | Text | Klasifikace | 2002 | M. Kadous | |
Cvičení na vzpírání monitorovaná pomocí inerciálních měřicích jednotek | Pět variací cviku na bicepsový záhyb monitorovaných pomocí IMU. | Některé statistiky vypočteny z nezpracovaných dat. | 39,242 | Text | Klasifikace | 2013 | W. Ugulino a kol. | |
Datová sada sEMG pro základní pohyby rukou | Dvě databáze povrchových elektromyografických signálů o 6 pohybech rukou. | Žádný. | 3000 | Text | Klasifikace | 2014 | C. Sapsanis a kol. | |
Datová sada rozpoznávání aktivit REALDISP | Vyhodnoťte techniky zabývající se efekty posunutí senzoru při rozpoznávání nositelné aktivity. | Žádný. | 1419 | Text | Klasifikace | 2014 | O. Banos a kol. | |
Datová sada rozpoznávání aktivity heterogenity | Data z více různých chytrých zařízení pro lidi provádějící různé činnosti. | Žádný. | 43 930 257 | Text | Klasifikace, shlukování | 2015 | A. Stisen a kol. | |
Předpověď pohybu vnitřního uživatele z údajů RSS | Dočasná bezdrátová síťová data, která lze použít ke sledování pohybu osob v kanceláři. | Žádný. | 13,197 | Text | Klasifikace | 2016 | D. Bacciu | |
Datová sada pro monitorování fyzické aktivity PAMAP2 | 18 různých typů fyzických aktivit prováděných 9 subjekty na sobě 3 IMU. | Žádný. | 3 850 505 | Text | Klasifikace | 2012 | A. Reiss | |
Datová sada rozpoznávání aktivit OPPORTUNITY | Rozpoznávání lidské aktivity pomocí nositelných, objektových a okolních senzorů je datová sada navržená pro srovnání algoritmů rozpoznávání lidské aktivity. | Žádný. | 2551 | Text | Klasifikace | 2012 | D. Roggen a kol. | |
Datová sada pro rozpoznávání aktivit v reálném světě | Rozpoznávání lidské aktivity z nositelných zařízení. Rozlišuje sedm poloh zařízení na těle a obsahuje šest různých druhů senzorů. | Žádný. | 3 150 000 (na snímač) | Text | Klasifikace | 2016 | T. Sztyler a kol. | |
Datová sada Toronto Rehab Stroke Pose | 3D odhady lidské pózy (Kinect) pacientů s mrtvicí a zdravých účastníků provádějících sadu úkolů pomocí robota pro rehabilitaci mrtvice. | Žádný. | 10 zdravých osob a 9 pacientů, kteří přežili mrtvici (3 500–6 000 snímků na osobu) | CSV | Klasifikace | 2017 | E. Dolatabadi a kol. | |
Corpus of Social Touch (CoST) | 7805 gest zachycuje 14 různých sociálních dotykových gest prováděných 31 subjekty. Gesta byla prováděna ve třech variantách: jemná, normální a drsná, na mřížce senzoru tlaku omotané kolem paže figuríny. | Provedená dotyková gesta jsou segmentována a označena. | 7805 zachycuje gesta | CSV | Klasifikace | 2016 | M. Jung a kol. |
Jiné signály
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada vína | Chemická analýza vín pěstovaných ve stejné oblasti v Itálii, ale získaných ze tří různých kultivarů. | Je uvedeno 13 vlastností každého vína | 178 | Text | Klasifikace, regrese | 1991 | M. Forina a kol. | |
Soubor dat elektrárny s kombinovaným cyklem | Data z různých senzorů v elektrárně běžící 6 let. | Žádný | 9568 | Text | Regrese | 2014 | P. Tufekci a kol. |
Fyzická data
Datové sady z fyzických systémů.
Fyzika vysokých energií
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada HIGGS | Monte Carlo simulace kolizí urychlovače částic. | Je uvedeno 28 vlastností každé kolize. | 11 mil | Text | Klasifikace | 2014 | D. Whiteson | |
Datová sada HEPMASS | Monte Carlo simulace kolizí urychlovače částic. Cílem je oddělit signál od šumu. | Je uvedeno 28 vlastností každé kolize. | 10 500 000 | Text | Klasifikace | 2016 | D. Whiteson |
Systémy
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datový soubor hydrodynamiky jachet | Výkon jachty na základě rozměrů. | Pro každou jachtu je uvedeno šest funkcí. | 308 | Text | Regrese | 2013 | R. Lopez | |
Datová sada Selhání spuštění robota | 5 datových sad, které se soustředí na selhání robotů při provádění běžných úkolů. | Funkce s celočíselnou hodnotou, jako je točivý moment a další měření senzorů. | 463 | Text | Klasifikace | 1999 | L. Seabra a kol. | |
Datová sada Pittsburgh Bridges | Popis konstrukce je uveden z hlediska několika vlastností různých mostů. | Jsou uvedeny různé funkce mostu. | 108 | Text | Klasifikace | 1990 | Y. Reich a kol. | |
Automobilová datová sada | Údaje o automobilech, jejich pojistném riziku a jejich normalizovaných ztrátách. | Extrahované funkce auta. | 205 | Text | Regrese | 1987 | J. Schimmer a kol. | |
Automatická datová sada MPG | Data MPG pro automobily. | Je uvedeno osm funkcí každého vozu. | 398 | Text | Regrese | 1993 | Univerzita Carnegie Mellon | |
Datová sada o energetické účinnosti | Požadavky na vytápění a chlazení dané funkcí parametrů budovy. | Uvedené parametry budovy. | 768 | Text | Klasifikace, regrese | 2012 | A. Xifara a kol. | |
Datový soubor s vlastním hlukem profilu křídla | Série aerodynamických a akustických testů dvou a trojrozměrných profilů lopatek křídla. | Jsou uvedeny údaje o frekvenci, úhlu útoku atd. | 1503 | Text | Regrese | 2014 | R. Lopez | |
Datová sada O-kroužků raketoplánu Challenger USA | Pokuste se předpovědět problémy s O-kroužkem vzhledem k minulým datům Challengeru. | U každého letu je uvedeno několik funkcí, například teplota spuštění. | 23 | Text | Regrese | 1993 | D. Draper a kol. | |
Datová sada Statlog (Shuttle) | Datové sady raketoplánů NASA. | Je uvedeno devět funkcí. | 58 000 | Text | Klasifikace | 2002 | NASA |
Astronomie
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sopky na Venuši - experimentální datový soubor JARtool | Snímky Venuše vrácené kosmickou lodí Magellan. | Obrázky jsou označeny lidmi. | nedáno | snímky | Klasifikace | 1991 | M. Burl | |
Datová sada MAGIC Gamma Telescope | Monte Carlo generovalo vysokoenergetické gama částice. | Mnoho funkcí extrahovaných ze simulací. | 19 020 | Text | Klasifikace | 2007 | R. Bock | |
Datová sada sluneční erupce | Měření počtu určitých typů slunečních erupcí vyskytujících se za 24 hodin. | Je dáno mnoho funkcí specifických pro sluneční erupci. | 1389 | Text | Regrese, klasifikace | 1989 | G. Bradshaw |
Věda o Zemi
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sopky světa | Údaje o sopečné erupci pro všechny známé sopečné události na Zemi. | Jsou uvedeny detaily jako region, subregion, tektonické nastavení, dominantní typ horniny. | 1535 | Text | Regrese, klasifikace | 2013 | E. Venzke a kol. | |
Datová sada seismických nárazů | Seismické aktivity z uhelného dolu. | Seizmická aktivita byla klasifikována jako nebezpečná nebo ne. | 2584 | Text | Klasifikace | 2013 | M. Sikora a kol. | |
KAMELY -US | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 671 | CSV, Text, Shapefile | Regrese | 2017 | N. Addor a kol. / A. Newman a kol. | |
CAMELS-Chile | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 516 | CSV, Text, Shapefile | Regrese | 2018 | C. Alvarez-Garreton a kol. | |
KAMELY-Brazílie | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 897 | CSV, Text, Shapefile | Regrese | 2020 | V. Chagas a kol. | |
CAMELS-GB | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 671 | CSV, Text, Shapefile | Regrese | 2020 | G. Coxon a kol. | |
CAMELS-Austrálie | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 222 | CSV, Text, Shapefile | Regrese | 2021 | K. Fowler a kol. | |
LamaH -CE | Datový soubor hydrologie povodí s hydrometeorologickými časovými řadami a různými atributy | viz Reference | 859 | CSV, Text, Shapefile | Regrese | 2021 | C. Klingler a kol. |
Jiné fyzické
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada pevnosti v tlaku v betonu | Datový soubor vlastností betonu a pevnosti v tlaku. | Pro každý vzorek je uvedeno devět funkcí. | 1030 | Text | Regrese | 2007 | Ano | |
Datová sada pro zkoušku propadu betonu | Průtok betonu je dán vlastnostmi. | Vlastnosti daného betonu, jako je popílek, voda atd. | 103 | Text | Regrese | 2009 | Ano | |
Datová sada pižma | Předpovězte, zda molekula, vzhledem k vlastnostem, bude pižmo nebo ne-pižmo. | Pro každou molekulu je uvedeno 168 rysů. | 6598 | Text | Klasifikace | 1994 | Arris Pharmaceutical Corp. | |
Datová sada poruch ocelových plechů | Ocelové desky 7 různých typů. | Pro každý vzorek je uvedeno 27 funkcí. | 1941 | Text | Klasifikace | 2010 | Centrum výzkumu Semeion |
Biologická data
Datové sady z biologických systémů.
Člověk
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Databáze EEG | Studie zkoumající koreláty EEG genetické predispozice k alkoholismu. | Měření ze 64 elektrod umístěných na pokožce hlavy vzorkováno při 256 Hz (epocha 3,9 ms) po dobu 1 sekundy. | 122 | Text | Klasifikace | 1999 | H. Begleiter | |
Datová sada rozhraní P300 | Data od devíti subjektů byla shromážděna pomocí rozhraní mozek-počítač na bázi P300 pro zdravotně postižené subjekty. | Rozdělte do čtyř relací pro každý předmět. Zadán kód MATLAB . | 1224 | Text | Klasifikace | 2008 | U. Hoffman a kol. | |
Sada údajů o srdečních chorobách | Přisuzováno pacientům s onemocněním srdce i bez něj. | Pro každého pacienta je uvedeno 75 atributů s některými chybějícími hodnotami. | 303 | Text | Klasifikace | 1988 | A. Janosi a kol. | |
Datová sada rakoviny prsu ve Wisconsinu (diagnostická) | Datový soubor vlastností prsních hmot. Diagnózy jsou stanoveny lékařem. | Pro každý vzorek je uvedeno 10 funkcí. | 569 | Text | Klasifikace | 1995 | W. Wolberg a kol. | |
Národní průzkum užívání drog a zdraví | Rozsáhlý průzkum zdraví a užívání drog ve Spojených státech. | Žádný. | 55,268 | Text | Klasifikace, regrese | 2012 | Ministerstvo zdravotnictví a sociálních služeb USA | |
Datová sada rakoviny plic | Datový soubor rakoviny plic bez definic atributů | Pro každý případ je uvedeno 56 funkcí | 32 | Text | Klasifikace | 1992 | Z. Hong a kol. | |
Datová sada arytmie | Údaje pro skupinu pacientů, z nichž někteří mají srdeční arytmii. | 276 funkcí pro každou instanci. | 452 | Text | Klasifikace | 1998 | H. Altay a kol. | |
Diabetes 130-americké nemocnice pro roky 1999–2008 Dataset | 9 let údajů o zpětném přebírání ve 130 amerických nemocnicích pro pacienty s diabetem. | Je uvedeno mnoho funkcí každého zpětného převzetí. | 100 000 | Text | Klasifikace, shlukování | 2014 | J. Clore a kol. | |
Datová sada Diabetická retinopatie Debrecen | Funkce extrahované z obrazů očí s diabetickou retinopatií i bez ní. | Extrahované funkce a diagnostikované podmínky. | 1151 | Text | Klasifikace | 2014 | B. Antal a kol. | |
Datová sada pro diabetickou retinopatii Messidor | Metody hodnocení technik segmentace a indexování v oblasti sítnicové oftalmologie (MESSIDOR) | Vyznačuje se stupněm retinopatie a rizikem makulárního edému | 1200 | Obrázky, text | Klasifikace, segmentace | 2008 | Projekt Messidor | |
Datová sada pro poruchy jater | Údaje pro osoby s poruchou jater. | Pro každého pacienta je uvedeno sedm biologických rysů. | 345 | Text | Klasifikace | 1990 | Bupa Medical Research Ltd. | |
Datová sada onemocnění štítné žlázy | 10 databází údajů o pacientech s onemocněním štítné žlázy. | Žádný. | 7200 | Text | Klasifikace | 1987 | R. Quinlan | |
Datová sada Mesothelioma | Mezoteliomová data o pacientech. | Je uveden velký počet funkcí, včetně expozice azbestu. | 324 | Text | Klasifikace | 2016 | A. Tanrikulu a kol. | |
Datová sada odhadu Pose na základě Parkinsonovy vize | 2D odhady lidské pózy u Parkinsonových pacientů provádějících různé úkoly. | Chvění fotoaparátu bylo z trajektorií odstraněno. | 134 | Text | Klasifikace, regrese | 2017 | M. Li a kol. | |
Datová sada KEGG Metabolic Reaction Network (Unirected) | Síť metabolických cest. Je uvedena reakční síť a relační síť . | Jsou uvedeny podrobné funkce pro každý síťový uzel a cestu. | 65 554 | Text | Klasifikace, shlukování, regrese | 2011 | M. Naeem a kol. | |
Modifikovaná datová sada pro analýzu morfologie lidských spermií (MHSMA) | Obrázky lidských spermií od 235 pacientů s neplodností mužského faktoru, označené pro normální nebo abnormální akrozom spermatu, hlavu, vakuolu a ocas. | Oříznuto kolem hlavy jednoho spermatu. Zvětšení normalizováno. Byly vytvořeny tréninkové, ověřovací a testovací skupiny. | 1540 | .npy soubory | Klasifikace | 2019 | S. Javadi a SA Mirroshandel |
Zvíře
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sada dat Abalone | Fyzikální měření Abalone. Rovněž jsou uvedeny vzorce počasí a poloha. | Žádný. | 4177 | Text | Regrese | 1995 | Marine Research Laboratories - Taroona | |
Zoo datová sada | Umělý datový soubor zahrnující 7 tříd zvířat. | Zvířata jsou zařazena do 7 kategorií a u každé jsou uvedeny vlastnosti. | 101 | Text | Klasifikace | 1990 | R. Forsyth | |
Datová sada Demospongiae | Údaje o mořských houbách. | 503 houbiček ve třídě Demosponge je popsáno různými funkcemi. | 503 | Text | Klasifikace | 2010 | E. Armengol a kol. | |
Datová sada genových sekvencí spojovacích spojů | Primární sestřihové genové sekvence (DNA) s přidruženou teorií nedokonalé domény. | Žádný. | 3190 | Text | Klasifikace | 1992 | G. Towell a kol. | |
Datová sada pro expresi myších proteinů | Hladiny exprese 77 proteinů měřené v mozkové kůře myší. | Žádný. | 1080 | Text | Klasifikace, shlukování | 2015 | C. Higuera a kol. |
Houby
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada hub UCI | Atributy a klasifikace hub. | Je dáno mnoho vlastností každé houby. | 8124 | Text | Klasifikace | 1987 | J. Schlimmer | |
Datová sada sekundárních hub | Atributy a klasifikace hub | Simulovaná data z větších a realističtějších primárních záznamů o houbách. Plně reprodukovatelné. | 61069 | Text | Klasifikace | 2020 | D. Wagner a kol. |
Rostlina
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datový soubor lesních požárů | Lesní požáry a jejich vlastnosti. | Je extrahováno 13 vlastností každého ohně. | 517 | Text | Regrese | 2008 | P. Cortez a kol. | |
Datová sada Iris | Tři druhy rostlin duhovky jsou popsány 4 různými atributy. | Žádný. | 150 | Text | Klasifikace | 1936 | R. Fishera | |
Dataset listů rostlinných druhů | Šestnáct vzorků listů, každý ze sta druhů rostlin. | Jsou uvedeny deskriptory tvaru, okraje s jemným měřítkem a histogramy textur. | 1600 | Text | Klasifikace | 2012 | J. Cope a kol. | |
Sójová datová sada | Databáze nemocných rostlin sóji. | Pro každou rostlinu je uvedeno 35 funkcí. Rostliny jsou zařazeny do 19 kategorií. | 307 | Text | Klasifikace | 1988 | R. Michalski a kol. | |
Sada dat semen | Měření geometrických vlastností jader patřících do tří různých odrůd pšenice. | Žádný. | 210 | Text | Klasifikace, shlukování | 2012 | Charytanowicz a kol. | |
Datový soubor Covertype | Data pro predikci typu lesního porostu výhradně z kartografických proměnných. | Je dáno mnoho geografických rysů. | 581 012 | Text | Klasifikace | 1998 | J. Blackard a kol. | |
Datová sada signální sítě Abscisic Acid | Data pro signalizační síť závodu. Cílem je určit sadu pravidel, která řídí síť. | Žádný. | 300 | Text | Kauzální objev | 2008 | J. Jenkens a kol. | |
Datová sada Folio | 20 fotografií listů pro každý z 32 druhů. | Žádný. | 637 | Obrázky, text | Klasifikace, shlukování | 2015 | T. Munisami a kol. | |
Datová sada Oxford Flower | Datová sada 17 kategorií květin. | Trénujte/testujte rozdělení, označené obrázky, | 1360 | Obrázky, text | Klasifikace | 2006 | ME Nilsback a kol. | |
Dataset rostlinných sazenic | Datový soubor 12 kategorií sazenic rostlin. | Označené obrázky, segmentované obrázky, | 5544 | snímky | Klasifikace, detekce | 2017 | Giselsson a kol. | |
Datová sada Fruits 360 | Databáze s obrázky 120 ovoce a zeleniny. | 100 x 100 pixelů, bílé pozadí. | 82213 | Obrázky (jpg) | Klasifikace | 2017–2019 | Mihai Oltean, Horea Muresan |
Mikrob
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada Ecoli | Lokalizace proteinů. | Jsou uvedeny různé vlastnosti míst lokalizace proteinů. | 336 | Text | Klasifikace | 1996 | K. Nakai a kol. | |
Datová sada MicroMass | Identifikace mikroorganismů z údajů hmotnostní spektrometrie. | Různé funkce hmotnostního spektrometru. | 931 | Text | Klasifikace | 2013 | P. Mahe a kol. | |
Kvasinková datová sada | Predikce buněčných lokalizačních míst proteinů. | Pro každou instanci je uvedeno osm funkcí. | 1484 | Text | Klasifikace | 1996 | K. Nakai a kol. |
Objev drog
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada Tox21 | Predikce výsledku biologických testů. | Jsou uvedeny chemické deskriptory molekul. | 12707 | Text | Klasifikace | 2016 | A. Mayr a kol. |
Údaje o anomáliích
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Benchmark anomálie Numenta (NAB) | Data jsou uspořádaná, časově označená, metriky s jednou hodnotou. Pokud není uvedeno jinak, všechny datové soubory obsahují anomálie. | Žádný | 50+ souborů | Hodnoty oddělené čárkami | Detekce anomálií | 2016 (průběžně aktualizováno) | Numenta | |
Skoltech Anomaly Benchmark (SKAB) | Každý soubor představuje jeden experiment a obsahuje jednu anomálii. Datová sada představuje vícerozměrnou časovou řadu shromážděnou ze senzorů nainstalovaných na testovacím stole. | Existují dvě značky pro problémy s detekcí odlehlých hodnot (bodové anomálie) a detekce změnových bodů (kolektivní anomálie) | 30+ souborů (v0.9) | Hodnoty oddělené čárkami | Detekce anomálií | 2020 (průběžně aktualizováno) |
|
Iurii D. Katser a Vyacheslav O. Kozitsin |
O vyhodnocení detekce odlehlých hodnot bez dozoru: Opatření, datové sady a empirická studie | Většina datových souborů je upravena z dat úložiště UCI Machine Learning Repository, některé jsou shromážděny z literatury. | ošetřeno pro chybějící hodnoty, pouze číselné atributy, různá procenta anomálií, popisky | 1000+ souborů | ARFF | Detekce anomálií | 2016 (případně aktualizováno o nové datové sady a/nebo výsledky) |
|
Campos a kol. |
Údaje pro zodpovězení otázek
Tato část obsahuje datové sady, které se zabývají strukturovanými daty.
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada DBpedia Neural Question Answering (DBNQA) | Velká sbírka Question to SPARQL speciálně navržená pro Open Domain Neural Question Answering přes databázi znalostí DBpedia. | Tato datová sada obsahuje velkou sbírku šablon Open Neural SPARQL a instancí pro školení strojů Neural SPARQL; bylo předzpracováno poloautomatickými anotačními nástroji a také třemi odborníky na SPARQL. | 894 499 | Páry dotaz-dotaz | Odpověď na otázku | 2018 | Hartmann, Soru a Marx a kol. | |
Datová sada pro vietnamské otázky (UIT-ViQuAD) | Velká sbírka vietnamských otázek pro hodnocení modelů MRC. | Tento soubor dat obsahuje více než 23 000 párů otázek a odpovědí generovaných lidmi na základě 5 109 pasáží 174 vietnamských článků z Wikipedie. | 23,074 | Dvojice otázek a odpovědí | Odpověď na otázku | 2020 | Nguyen a kol. | |
Vietnamský korpus pro strojové čtení s vícenásobným výběrem (ViMMRC) | Sbírka vietnamských otázek s výběrem odpovědí pro hodnocení modelů MRC. | Tento korpus obsahuje 2783 vietnamských otázek s možností výběru z více odpovědí. | 2 783 | Dvojice otázek a odpovědí | Odpovídání na otázky/porozumění strojovému čtení | 2020 | Nguyen a kol. |
Vícerozměrná data
Datové sady sestávající z řad pozorování a sloupců atributů charakterizujících tato pozorování. Obvykle se používá pro regresní analýzu nebo klasifikaci, ale lze použít i jiné typy algoritmů. Tato část obsahuje datové sady, které se nehodí do výše uvedených kategorií.
Finanční
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Dow Jonesův index | Týdenní údaje o zásobách z prvního a druhého čtvrtletí roku 2011. | Zahrnuty jsou vypočítané hodnoty, například procentuální změna a zpoždění. | 750 | Hodnoty oddělené čárkami | Klasifikace, regrese, časové řady | 2014 | M. Brown a kol. | |
Statlog (australské schválení úvěru) | Žádosti o kreditní kartu jsou buď přijaty, nebo zamítnuty, a atributy aplikace. | Názvy atributů budou odstraněny stejně jako identifikační informace. Faktory byly znovu označeny. | 690 | Hodnoty oddělené čárkami | Klasifikace | 1987 | R. Quinlan | |
Údaje aukce eBay | Údaje o aukcích z různých objektů eBay.com z aukcí různých délek | Obsahuje všechny nabídky, ID uchazeče, časy nabídek a otevírací ceny. | ~ 550 | Text | Regrese, klasifikace | 2012 | G. Shmueli a kol. | |
Statlog (německé úvěrové údaje) | Binární klasifikace kreditu na „dobré“ nebo „špatné“ s mnoha funkcemi | U každé osoby jsou uvedeny různé finanční vlastnosti. | 690 | Text | Klasifikace | 1994 | H. Hofmann | |
Bankovní marketingová datová sada | Data z velké marketingové kampaně realizované velkou bankou. | Je uvedeno mnoho atributů kontaktovaných klientů. Je -li uveden také klient, který se upsal bance. | 45,211 | Text | Klasifikace | 2012 | S. Moro a kol. | |
Dataset Istanbulské burzy cenných papírů | Několik akciových indexů bylo sledováno téměř dva roky. | Žádný. | 536 | Text | Klasifikace, regrese | 2013 | O. Akbilgic | |
Výchozí klienti kreditních karet | Údaje o úvěrovém selhání pro tchajwanské věřitele. | Pro každý účet jsou uvedeny různé funkce. | 30 000 | Text | Klasifikace | 2016 | Ano |
Počasí
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Cloudová datová sada | Data o 1024 různých oblacích. | Extrahované funkce obrázku. | 1024 | Text | Klasifikace, shlukování | 1989 | P. Collard | |
Datová sada El Nino | Oceánografické a povrchové meteorologické údaje odebrané ze série bójí rozmístěných po celém rovníkovém Pacifiku. | Na každé bóji se měří 12 atributů počasí. | 178080 | Text | Regrese | 1999 | Pacific Marine Environmental Laboratory | |
Datová sada sítě pro pozorování skleníkových plynů | Časové řady koncentrací skleníkových plynů v 2921 buňkách mřížky v Kalifornii vytvořené pomocí simulací počasí. | Žádný. | 2921 | Text | Regrese | 2015 | D. Lucas | |
Atmosférický CO2 z kontinuálních vzorků vzduchu na observatoři Mauna Loa | Průběžné vzorky vzduchu na Havaji v USA. 44 let rekordů. | Žádný. | 44 let | Text | Regrese | 2001 | Observatoř Mauna Loa | |
Datová sada Ionosphere | Radarová data z ionosféry. Úkolem je klasifikovat na dobré a špatné návraty radaru. | Mnoho radarových funkcí dáno. | 351 | Text | Klasifikace | 1989 | Univerzita Johna Hopkinse | |
Datová sada pro detekci úrovně ozónu | Dvě datové sady úrovně přízemního ozónu. | Je dáno mnoho funkcí, včetně povětrnostních podmínek v době měření. | 2536 | Text | Klasifikace | 2008 | K. Zhang a kol. |
Sčítání lidu
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Dataset pro dospělé | Data ze sčítání lidu z roku 1994 obsahující demografické rysy dospělých a jejich příjmy. | Vyčištěno a anonymizováno. | 48,842 | Hodnoty oddělené čárkami | Klasifikace | 1996 | United States Census Bureau | |
Příjem ze sčítání lidu (KDD) | Vážená data ze sčítání lidu z aktuálních průzkumů populace z let 1994 a 1995 . | Rozdělte do tréninkových a testovacích sad. | 299 285 | Hodnoty oddělené čárkami | Klasifikace | 2000 | United States Census Bureau | |
Databáze sčítání IPUMS | Data ze sčítání lidu z oblastí Los Angeles a Long Beach. | Žádný | 256 932 | Text | Klasifikace, regrese | 1999 | IPUMS | |
Data amerického sčítání lidu 1990 | Dílčí údaje ze sčítání lidu USA v roce 1990. | Výsledky randomizované a vybrané užitečné atributy. | 2 458 285 | Text | Klasifikace, regrese | 1990 | United States Census Bureau |
Tranzit
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada pro sdílení kol | Hodinový a denní počet zapůjčení kol ve velkém městě. | K dispozici je mnoho funkcí, včetně počasí, délky cesty atd. | 17,389 | Text | Regrese | 2013 | H. Fanaee-T | |
Data výletu taxíkem v New Yorku | Údaje o cestě pro žluté a zelené taxíky v New Yorku. | Poskytuje místa vyzvednutí a odevzdání, ceny jízdného a další podrobnosti o cestách. | 6 let | Text | Klasifikace, shlukování | 2015 | New York City Taxi and Limousine Commission | |
Trajektorie taxislužby ECML PKDD | Trajektorie všech taxíků ve velkém městě. | Mnoho funkcí, včetně počátečních a koncových bodů. | 1 710 671 | Text | Shlukování, příčinné objevování | 2015 | M. Ferreira a kol. | |
METR-LA | Rychlost ze smyčkových detektorů na dálnici Los Angeles County. | Průměrná rychlost za 5 minut. | 7 094 304 z 207 senzorů a 34 272 časových kroků | Hodnoty oddělené čárkami | Regrese, prognózy | 2014 | Jagadish a kol. | |
PeMS | Rychlost, průtok, obsazenost a další metriky ze smyčkových detektorů a dalších senzorů na dálnici státu Kalifornie, USA. | Metrika se obvykle agreguje pomocí průměru do časových kroků 5 minut. | 39 000 jednotlivých detektorů, z nichž každý obsahuje roky časových řad | Hodnoty oddělené čárkami | Regrese, predikce, nowcasting, interpolace | (aktualizováno v reálném čase) | Kalifornské ministerstvo dopravy |
Internet
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Webové stránky z Common Crawl 2012 | Velká sbírka webových stránek a jejich propojení pomocí hypertextových odkazů | Žádný. | 3,5 B | Text | shlukování, klasifikace | 2013 | V. Granville | |
Datová sada internetových reklam | Datová sada pro předpovídání, zda je daný obrázek reklama nebo ne. | Funkce kódují geometrii reklam a frází vyskytujících se v adrese URL. | 3279 | Text | Klasifikace | 1998 | N. Kushmerick | |
Datová sada využití internetu | Obecná demografie uživatelů internetu. | Žádný. | 10 104 | Text | Klasifikace, shlukování | 1999 | D. Cook | |
Datová sada URL | 120 dní dat URL z velké konference. | U každé adresy URL je uvedeno mnoho funkcí. | 2,396,130 | Text | Klasifikace | 2009 | J. Ma | |
Datová sada webů pro phishing | Datová sada phishingových webů. | Na každém webu je uvedeno mnoho funkcí. | 2456 | Text | Klasifikace | 2015 | R. Mustafa a kol. | |
Online maloobchodní datová sada | Online transakce pro britského online prodejce. | Podrobnosti o každé dané transakci. | 541 909 | Text | Klasifikace, shlukování | 2015 | D. Chen | |
Skládání témat zdarma na jednoduché téma | Freebase je online snaha strukturovat veškeré lidské znalosti. | Témata z Freebase byla extrahována. | velký | Text | Klasifikace, shlukování | 2011 | Freebase | |
Datová sada zemědělských reklam | Text reklam na farmy z webových stránek. Je uděleno binární schválení nebo nesouhlas vlastníků obsahu. | Vypočtené řídké vektory SVMlight textových slov v reklamách. | 4143 | Text | Klasifikace | 2011 | C. Masterharm a kol. |
Hry
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada pokerové ruky | 5 karet ze standardního balíčku 52 karet. | Jsou uvedeny atributy každé ruky, včetně pokerových karet tvořených kartami, které obsahuje. | 1 025 010 | Text | Regrese, klasifikace | 2007 | R. Cattral | |
Datová sada Connect-4 | Obsahuje všechny legální 8vrstvé pozice ve hře connect-4, ve kterých zatím žádný z hráčů nevyhrál a ve kterých není vynucený další tah. | Žádný. | 67,557 | Text | Klasifikace | 1995 | J. Tromp | |
Datová sada šachů (King-Rook vs. King) | Databáze Endgame pro White King a Rook proti Black King. | Žádný. | 28,056 | Text | Klasifikace | 1994 | M. Bain a kol. | |
Datová sada Chess (King-Rook vs. King-Pawn) | Král+věž proti králi+pěšci na a7. | Žádný. | 3196 | Text | Klasifikace | 1989 | R. Holte | |
Datová sada koncových her Tic-Tac-Toe | Binární klasifikace pro podmínky výhry v tic-tac-toe. | Žádný. | 958 | Text | Klasifikace | 1991 | D. Aha |
Jiné vícerozměrné
Název datové sady | Stručný popis | Předzpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sada dat bydlení | Střední domácí hodnoty Bostonu s přidruženými atributy domova a sousedství. | Žádný. | 506 | Text | Regrese | 1993 | D. Harrison a kol. | |
Getty slovníky | strukturovaná terminologie pro umění a další materiální kulturu, archivní materiály, vizuální náhrady a bibliografické materiály. | Žádný. | velký | Text | Klasifikace | 2015 | Centrum Getty | |
Yahoo! Úvodní stránka Dnes Modul Uživatel Klikněte na Protokol | Protokol kliknutí uživatele pro zpravodajské články zobrazené na kartě Doporučené v modulu Today na Yahoo! Přední strana. | Spojte analýzu s bilineárním modelem. | 45 811 883 návštěv uživatelů | Text | Regrese, shlukování | 2009 | Chu a kol. | |
Britské oceánografické datové centrum | Biologická, chemická, fyzikální a geofyzikální data pro oceány. Sledováno 22 tisíc proměnných. | Rozličný. | 22K proměnné, mnoho instancí | Text | Regrese, shlukování | 2015 | Britské oceánografické datové centrum | |
Datová sada záznamů o hlasování v Kongresu | Údaje o hlasování pro všechny zástupce USA o 16 problémech. | Kromě nezpracovaných dat o hlasování jsou k dispozici různé další funkce. | 435 | Text | Klasifikace | 1987 | J. Schlimmer | |
Soubor údajů o doporučení Chicaga | Záznam interakcí uživatelů se systémem doporučení Entree Chicago. | Podrobně jsou zaznamenány podrobnosti o používání aplikace každým uživatelem. | 50,672 | Text | Regrese, doporučení | 2000 | R. Burke | |
Benchmark pojišťovny (COIL 2000) | Informace o zákaznících pojišťovací společnosti. | Mnoho funkcí každého zákazníka a služeb, které používá. | 9 000 | Text | Regrese, klasifikace | 2000 | P. van der Putten | |
Dataset školky | Údaje od uchazečů do mateřských škol. | Včetně údajů o rodině žadatele a různých dalších faktorech. | 12 960 | Text | Klasifikace | 1997 | V. Rajkovic a kol. | |
Univerzitní datový soubor | Data popisující přisuzovaná velkému počtu univerzit. | Žádný. | 285 | Text | Shlukování, klasifikace | 1988 | S. Sounders a kol. | |
Datová sada centra pro transfúzi krve | Údaje ze střediska transfúze krve. Poskytuje údaje o míře návratnosti dárců, frekvenci atd. | Žádný. | 748 | Text | Klasifikace | 2008 | Ano | |
Zaznamenejte datovou sadu porovnávacích vzorů propojení | Velká datová sada záznamů. Úkolem je propojit příslušné záznamy dohromady. | Postup blokování byl použit k výběru pouze určitých párů záznamů. | 5,749,132 | Text | Klasifikace | 2011 | University of Mainz | |
Datová sada Nomao | Nomao shromažďuje data o místech z mnoha různých zdrojů. Úkolem je detekovat položky, které popisují stejné místo. | Duplikáty označené. | 34,465 | Text | Klasifikace | 2012 | Nomao Labs | |
Datová sada filmu | Data pro 10 000 filmů. | Pro každý film je uvedeno několik funkcí. | 10 000 | Text | Shlukování, klasifikace | 1999 | G. Wiederhold | |
Otevřená datová sada University Learning Analytics | Informace o studentech a jejich interakcích s virtuálním výukovým prostředím. | Žádný. | ~ 30 000 | Text | Klasifikace, shlukování, regrese | 2015 | J. Kuzilek a kol. | |
Záznamy z mobilního telefonu | Telekomunikační aktivita a interakce | Agregace podle buněk geografické mřížky a každých 15 minut. | velký | Text | Klasifikace, shlukování, regrese | 2015 | G. Barlacchi a kol. |
Upravená úložiště datových sad
Jelikož datové sady přicházejí v nesčetných formátech a jejich použití může být někdy obtížné, bylo vynaloženo značné úsilí na úpravu a standardizaci formátu datových sad, aby se usnadnilo jejich použití pro výzkum strojového učení.
- OpenML: Webová platforma s rozhraními Python, R, Java a dalšími API pro stahování stovek datových sad strojového učení, vyhodnocování algoritmů na datových sadách a srovnávání výkonu algoritmů s desítkami dalších algoritmů.
- PMLB: Velké, kurátorské úložiště srovnávacích datových sad pro hodnocení algoritmů strojového učení pod dohledem. Poskytuje datové sady klasifikace a regrese ve standardizovaném formátu, které jsou přístupné prostřednictvím rozhraní Python API.
- Metatext NLP: https://metatext.io/datasets webové úložiště spravované komunitou, obsahující téměř 1000 srovnávacích datových sad a počítání. Poskytuje mnoho úkolů od klasifikace po QA a různé jazyky od angličtiny, portugalštiny až po arabštinu.
- Appen : Off the Shelf and Open Source Datasets hosted and guaranteed by the company. Těchto zdrojů biologických, obrazových, fyzických, odpovědí na otázky, signálu, zvuku, textu a videa je více než 250 a lze je aplikovat na více než 25 různých případů použití.
Viz také
- Porovnání softwaru pro hluboké učení
- Seznam nástrojů pro ruční anotaci obrázků
- Seznam biologických databází