Symbolická regrese - Symbolic regression

Strom výrazů, jak jej lze použít v symbolické regresi k reprezentaci funkce.

Symbolická regrese (SR) je typ regresní analýzy, která prohledává prostor matematických výrazů a hledá model, který nejlépe vyhovuje dané datové sadě, a to jak z hlediska přesnosti, tak jednoduchosti. Jako výchozí bod algoritmu není poskytnut žádný konkrétní model. Místo toho jsou počáteční výrazy tvořeny náhodným kombinováním matematických stavebních bloků, jako jsou matematické operátory , analytické funkce , konstanty a stavové proměnné . Obvykle bude podmnožina těchto primitivů specifikována osobou, která ji provozuje, ale to není podmínkou této techniky. Problém symbolické regrese pro matematické funkce byl řešen řadou metod, včetně rekombinace rovnic nejčastěji pomocí genetického programování , stejně jako novějších metod využívajících Bayesovské metody a fyziku inspirovanou AI . Další neklasická alternativní metoda k SR se nazývá Universal Functions Originator (UFO), která má jiný mechanismus, vyhledávací prostor a strategii budování. Další metody, jako je Exact Learning, se pokoušejí transformovat problém s přizpůsobením na momentový problém v přirozeném funkčním prostoru, obvykle postaveném na zobecnění funkce Meijer-G .

Tím, že není požadována apriorní specifikace modelu, není symbolická regrese ovlivněna lidskou zaujatostí nebo neznámými mezerami ve znalosti domény . Pokouší se odhalit vnitřní vztahy datové sady tím, že nechává vzory v samotných datech odhalit příslušné modely, spíše než vnucovat modelovou strukturu, která je z lidského pohledu považována za matematicky traktovatelnou. Funkce fitness, která řídí evoluci modelů, bere v úvahu nejen metriky chyb (aby se zajistilo, že modely přesně předpovídají data), ale také speciální opatření složitosti, čímž je zajištěno, že výsledné modely odhalí základní strukturu dat způsobem, který je srozumitelný z lidského pohledu. To usnadňuje uvažování a zvyšuje pravděpodobnost získání přehledů o systému generujícím data.

Rozdíl od klasické regrese

Zatímco konvenční regresní techniky se snaží optimalizovat parametry pro předem specifikovanou strukturu modelu, symbolická regrese se vyhýbá uložení předchozích předpokladů a místo toho model odvozuje z dat. Jinými slovy se pokouší objevit struktury modelu i parametry modelu.

Tento přístup má tu nevýhodu, že má mnohem větší prostor pro vyhledávání, protože nejen vyhledávací prostor v symbolické regresi je nekonečný, ale existuje nekonečné množství modelů, které se dokonale vejdou do konečné sady dat (za předpokladu, že složitost modelu není ' t uměle omezené). To znamená, že nalezení vhodného modelu a parametrizace bude pravděpodobně trvat symbolický regresní algoritmus déle než tradiční regresní techniky. To lze zmírnit omezením sady stavebních bloků poskytovaných algoritmu na základě stávajících znalostí systému, který data vytvořil; ale nakonec je použití symbolické regrese rozhodnutím, které musí být vyváženo tím, kolik toho je o základním systému známo.

Nicméně tato charakteristika symbolické regrese má také výhody: protože evoluční algoritmus vyžaduje k efektivnímu prozkoumání prostoru vyhledávání rozmanitost, konečným výsledkem bude pravděpodobně výběr modelů s vysokým skóre (a jejich odpovídající sadou parametrů). Zkoumání této kolekce by mohlo poskytnout lepší vhled do základního procesu a umožňuje uživateli identifikovat aproximaci, která lépe vyhovuje jeho potřebám, pokud jde o přesnost a jednoduchost.

Viz také

Reference


Další čtení

externí odkazy