Symbolická regrese - Symbolic regression
Symbolická regrese (SR) je typ regresní analýzy, která prohledává prostor matematických výrazů a hledá model, který nejlépe vyhovuje dané datové sadě, a to jak z hlediska přesnosti, tak jednoduchosti. Jako výchozí bod algoritmu není poskytnut žádný konkrétní model. Místo toho jsou počáteční výrazy tvořeny náhodným kombinováním matematických stavebních bloků, jako jsou matematické operátory , analytické funkce , konstanty a stavové proměnné . Obvykle bude podmnožina těchto primitivů specifikována osobou, která ji provozuje, ale to není podmínkou této techniky. Problém symbolické regrese pro matematické funkce byl řešen řadou metod, včetně rekombinace rovnic nejčastěji pomocí genetického programování , stejně jako novějších metod využívajících Bayesovské metody a fyziku inspirovanou AI . Další neklasická alternativní metoda k SR se nazývá Universal Functions Originator (UFO), která má jiný mechanismus, vyhledávací prostor a strategii budování. Další metody, jako je Exact Learning, se pokoušejí transformovat problém s přizpůsobením na momentový problém v přirozeném funkčním prostoru, obvykle postaveném na zobecnění funkce Meijer-G .
Tím, že není požadována apriorní specifikace modelu, není symbolická regrese ovlivněna lidskou zaujatostí nebo neznámými mezerami ve znalosti domény . Pokouší se odhalit vnitřní vztahy datové sady tím, že nechává vzory v samotných datech odhalit příslušné modely, spíše než vnucovat modelovou strukturu, která je z lidského pohledu považována za matematicky traktovatelnou. Funkce fitness, která řídí evoluci modelů, bere v úvahu nejen metriky chyb (aby se zajistilo, že modely přesně předpovídají data), ale také speciální opatření složitosti, čímž je zajištěno, že výsledné modely odhalí základní strukturu dat způsobem, který je srozumitelný z lidského pohledu. To usnadňuje uvažování a zvyšuje pravděpodobnost získání přehledů o systému generujícím data.
Rozdíl od klasické regrese
Zatímco konvenční regresní techniky se snaží optimalizovat parametry pro předem specifikovanou strukturu modelu, symbolická regrese se vyhýbá uložení předchozích předpokladů a místo toho model odvozuje z dat. Jinými slovy se pokouší objevit struktury modelu i parametry modelu.
Tento přístup má tu nevýhodu, že má mnohem větší prostor pro vyhledávání, protože nejen vyhledávací prostor v symbolické regresi je nekonečný, ale existuje nekonečné množství modelů, které se dokonale vejdou do konečné sady dat (za předpokladu, že složitost modelu není ' t uměle omezené). To znamená, že nalezení vhodného modelu a parametrizace bude pravděpodobně trvat symbolický regresní algoritmus déle než tradiční regresní techniky. To lze zmírnit omezením sady stavebních bloků poskytovaných algoritmu na základě stávajících znalostí systému, který data vytvořil; ale nakonec je použití symbolické regrese rozhodnutím, které musí být vyváženo tím, kolik toho je o základním systému známo.
Nicméně tato charakteristika symbolické regrese má také výhody: protože evoluční algoritmus vyžaduje k efektivnímu prozkoumání prostoru vyhledávání rozmanitost, konečným výsledkem bude pravděpodobně výběr modelů s vysokým skóre (a jejich odpovídající sadou parametrů). Zkoumání této kolekce by mohlo poskytnout lepší vhled do základního procesu a umožňuje uživateli identifikovat aproximaci, která lépe vyhovuje jeho potřebám, pokud jde o přesnost a jednoduchost.
Viz také
- Eureqa , symbolický regresní engine
- HeuristicLab , softwarové prostředí pro heuristické a evoluční algoritmy, včetně symbolické regrese
- Uzavřený výraz § Převod z numerických forem
- Genetické programování
- Programování genových výrazů
- Kolmogorovova složitost
- Matematická optimalizace
- Regresní analýza
- Reverzní matematika
Reference
Další čtení
- Mark J. Willis; Hugo G. Hiden; Ben McKay; Gary A. Montague; Peter Marenbach (1997). „Genetické programování: Úvod a přehled aplikací“ (PDF) . Publikace konference IEE . IEE . s. 314–319.
- Wouter Minnebo; Sean Stijven (2011). „Kapitola 4: Symbolická regrese“ (PDF) . Empowering Knowledge Computing with Variable Selection (M.Sc. thesis). Univerzita v Antverpách .
- John R. Koza; Martin A. Keane; James P. Rice (1993). „Zlepšení výkonu strojového učení prostřednictvím automatického objevování usnadňujících funkcí, jak je aplikováno na problém symbolické identifikace systému“ (PDF) . Mezinárodní konference IEEE o neurálních sítích . San Francisco: IEEE . s. 191–198.
externí odkazy
- Ivan Zelinka (2004). „Symbolická regrese - přehled“ .
- Hansueli Gerber (1998). „Jednoduchá symbolická regrese pomocí genetického programování“ .(Java applet) - aproximuje funkci vyvíjením kombinací jednoduchých aritmetických operátorů pomocí algoritmů vyvinutých Johnem Kozou .
- Katya Vladislavleva. „Symbolická regrese: zjišťování funkcí a další“ . Archivovány od originálu na 2014-12-18.
- RGP , rámec genetického programování (GP) v R, který podporuje symbolickou regresi
- GPTIPS , genetická programovací a symbolická platforma pro těžbu dat pro MATLAB
- dcgp , sada nástrojů symbolické regrese s otevřeným zdrojovým kódem.
- Glyph , knihovna pythonu 3 založená na deapu poskytující vrstvy abstrakce pro problémy se symbolickou regresí
- Kód AI-Feynman python3 + pytorch pro fyzikálně inspirovanou metodu symbolické regrese.
- TuringBot , symbolický regresní software založený na simulovaném žíhání.