Průměrování souboru (strojové učení) - Ensemble averaging (machine learning)

Ve strojovém učení , zejména při vytváření umělých neuronových sítí , je průměrování souboru proces vytváření více modelů a jejich kombinací k vytvoření požadovaného výstupu, na rozdíl od vytvoření pouze jednoho modelu. Soubor modelů často funguje lépe než kterýkoli jiný model, protože různé chyby modelů se „průměrují“.

Přehled

Průměrování souborů je jedním z nejjednodušších typů komisních strojů . Spolu s posilováním je to jeden ze dvou hlavních typů strojů statické komise. Na rozdíl od standardního designu sítě, ve kterém je generováno mnoho sítí, ale je udržována pouze jedna, průměrování souboru udržuje méně uspokojivé sítě kolem, ale s menší váhou. Teorie průměrování souborů se opírá o dvě vlastnosti umělých neuronových sítí:

  1. V jakékoli síti lze zkreslení snížit za cenu zvýšené odchylky
  2. Ve skupině sítí lze rozptyl snížit bez předpojatosti

Ensemble zprůměrování vytvoří skupinu sítí, každá s nízkou odchylkou a vysokou odchylkou, a poté je zkombinuje do nové sítě s (snad) nízkou zaujatostí a nízkou odchylkou. Jedná se tedy o řešení dilematu zkreslení . Myšlenka spojit odborníky vychází z Pierre-Simon Laplace .

Metoda

Výše zmíněná teorie poskytuje zřejmou strategii: vytvořte skupinu odborníků s nízkým zkreslením a vysokou rozptylem a poté je průměrujte. Obecně to znamená vytvořit skupinu odborníků s různými parametry; často se jedná o počáteční synaptické váhy, i když se mohou lišit i další faktory (jako je rychlost učení, hybnost atd.). Někteří autoři doporučují proti různým úbytkům hmotnosti a předčasnému zastavení. Kroky jsou tedy:

  1. Generujte N odborníků, z nichž každý má své vlastní počáteční hodnoty. (Počáteční hodnoty jsou obvykle vybrány náhodně z distribuce.)
  2. Školte každého odborníka zvlášť.
  3. Zkombinujte odborníky a zprůměrujte jejich hodnoty.

Alternativně lze znalosti domény použít ke generování několika tříd odborníků. Odborník z každé třídy je vyškolen a poté kombinován.

Složitější verze průměrného souboru nepovažuje konečný výsledek za pouhý průměr všech odborníků, ale spíše za vážený součet. Pokud je každý odborník , pak lze celkový výsledek definovat jako:

kde je sada závaží. Optimalizační problém s nalezením alfa je snadno vyřešen pomocí neuronových sítí, tedy „meta-sítě“, kde každý „neuron“ je ve skutečnosti celá neurální síť, kterou lze trénovat, a synaptické váhy konečné sítě jsou váhou aplikovanou na každou expert. Toto je známé jako lineární kombinace odborníků .

Je vidět, že většina forem neuronových sítí je podmnožinou lineární kombinace: standardní neuronová síť (kde je použit pouze jeden expert) je jednoduše lineární kombinace se všemi a jedním . Surový průměr je tam, kde se všechny rovnají nějaké konstantní hodnotě, konkrétně jedné z celkového počtu odborníků.

Novější metodou průměrování souboru je učení negativní korelace, které navrhli Y. Liu a X. Yao. Nyní je tato metoda široce používána v evolučních výpočtech .

Výhody

  • Výsledný výbor je téměř vždy méně složitý než jedna síť, která by dosahovala stejné úrovně výkonu
  • Výslednou komisi lze snadněji trénovat na menších vstupních sadách
  • Výsledný výbor často zlepšil výkon v jakékoli jednotlivé síti
  • Riziko nadměrného vybavení je sníženo, protože existuje méně parametrů (hmotností), které je třeba nastavit

Viz také

Reference

  1. ^ a b c Haykin, Simon. Neuronové sítě: komplexní základ. 2. vyd. Horní sedlo řeky NJ: Prentice Hall, 1999.
  2. ^ a b c d Hashem, S. "Optimální lineární kombinace neuronových sítí." Neural Networks 10, č. 4 (1997): 599–614.
  3. ^ a b Naftaly, U., N. Intrator a D. Horn. „Optimální průměrování soustavy neuronových sítí.“ Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.
  4. ^ Geman, S., E. Bienenstock a R. Doursat. „Neuronové sítě a dilema zkreslení / odchylky.“ Neurální výpočet 4, č. 1 (1992): 1-58.
  5. ^ Clemen, RT „Kombinace prognóz: recenze a anotovaná bibliografie.“ International Journal of Forecasting 5, č. 4 (1989): 559-583.
  6. ^ Y. Liu a X. Yao, Ensemble Learning via Negative Correlation Neural Networks, svazek 12, číslo 10, prosinec 1999, str. 1399-1404. doi : 10,1016 / S0893-6080 (99) 00073-8
  7. ^ Pearlmutter, BA a R. Rosenfeld. „Chaitin – Kolmogorovova složitost a zobecnění v neuronových sítích.“ In Proceedings of the 1990 conference on Advances in neurural information processing systems 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Další čtení

  • Perrone, MP (1993), Zlepšení odhadu regrese: Metody průměrování pro redukci odchylek s rozšířením o obecnou optimalizaci konvexních opatření
  • Wolpert, DH (1992), „Stacked generalization“, Neural Networks , 5 (2): 241–259, CiteSeerX   10.1.1.133.8090 , doi : 10.1016 / S0893-6080 (05) 80023-1
  • Hashem, S. (1997), „Optimální lineární kombinace neuronových sítí“, Neural Networks , 10 (4): 599–614, doi : 10,1016 / S0893-6080 (96) 00098-6 , PMID   12662858
  • Hashem, S. a B. Schmeiser (1993), „Aproximace funkce a jejích derivátů pomocí MSE-optimálních lineárních kombinací trénovaných dopředných neuronových sítí“, Proceedings of the Joint Conference on Neural Networks , 87 : 617–620