Časové řady - Time series

Časová řada: náhodná data plus trend, s nejlépe padnoucí linkou a různými použitými filtry

V matematice je časová řada řada datových bodů indexovaných (nebo uvedených nebo grafovaných) v časovém pořadí. Časová řada je nejčastěji sekvence pořízená v postupných stejně rozložených bodech v čase. Jedná se tedy o sekvenci diskrétních časových dat. Příklady časových řad jsou výšky přílivu a odlivu , počty slunečních skvrn a denní uzavírací hodnota průmyslového průměru Dow Jones .

Časová řada je velmi často vykreslena prostřednictvím průběžného grafu (což je dočasný spojnicový graf ). Časové řady se používají ve statistikách , zpracování signálu , rozpoznávání vzorů , ekonometrii , matematických financích , předpovědi počasí , predikci zemětřesení , elektroencefalografii , řídicí technice , astronomii , komunikačním inženýrství a převážně v jakékoli oblasti aplikované vědy a techniky, která zahrnuje časová měření.

Analýza časových řad zahrnuje metody pro analýzu dat časových řad za účelem získání smysluplných statistik a dalších charakteristik dat. Prognózy časových řad jsou použití modelu k předpovídání budoucích hodnot na základě dříve pozorovaných hodnot. Zatímco regresní analýza se často používá takovým způsobem, aby se testovaly vztahy mezi jednou nebo více různými časovými řadami, tento typ analýzy se obvykle neříká „analýza časové řady“, což se týká zejména vztahů mezi různými časovými body v rámci jednoho série. Analýza přerušených časových řad se používá k detekci změn ve vývoji časové řady od před do po nějaké intervenci, které mohou ovlivnit podkladovou proměnnou.

Data časových řad mají přirozené časové uspořádání. Díky tomu je analýza časových řad odlišná od průřezových studií , ve kterých neexistuje žádné přirozené uspořádání pozorování (např. Vysvětlování mezd lidí odkazem na jejich příslušné úrovně vzdělání, kde by údaje jednotlivců mohly být zadávány v libovolném pořadí). Analýza časových řad je také odlišná od analýzy prostorových dat, kde se pozorování obvykle týkají geografických lokalit (např. Účtování cen domů podle lokality a vnitřních charakteristik domů). Stochastický model pro časové řady obecně odrážejí skutečnost, že pozorování blízko u sebe v čase bude více úzce souvisí než pozorování dále od sebe. Modely časových řad navíc často využívají přirozené jednosměrné uspořádání času, takže hodnoty pro dané období budou vyjádřeny jako odvozené nějakým způsobem z hodnot minulých, nikoli z hodnot budoucích (viz časová reverzibilita ).

Analýzu časových řad lze použít na skutečná , spojitá data, diskrétní numerická data nebo diskrétní symbolická data (tj. Sekvence znaků, jako jsou písmena a slova v angličtině ).

Metody pro analýzu

Metody pro analýzu časových řad lze rozdělit do dvou tříd: metody frekvenční domény a metody časové domény . Mezi první patří spektrální analýza a vlnková analýza ; posledně jmenované zahrnují analýzu automatické korelace a křížové korelace . V časové oblasti lze korelaci a analýzu provádět způsobem podobným filtru pomocí škálované korelace , čímž se zmírňuje potřeba pracovat ve frekvenční oblasti.

Techniky analýzy časových řad lze navíc rozdělit na parametrické a neparametrické metody. Tyto parametrické přístupy předpokládají, že základní stacionární stochastický proces má určitou strukturu, která může být popsána pomocí malého počtu parametrů (například za použití autoregresních nebo klouzavý průměr modelu ). V těchto přístupech je úkolem odhadnout parametry modelu, který popisuje stochastický proces. Naproti tomu neparametrické přístupy explicitně odhadují kovarianci nebo spektrum procesu, aniž by předpokládaly, že proces má nějakou konkrétní strukturu.

Metody analýzy časových řad lze také rozdělit na lineární a nelineární a jednosměrné a vícerozměrné .

Data panelu

Časová řada je jedním typem dat panelu . Data panelu jsou obecnou třídou, multidimenzionální sadou dat, zatímco sada dat časové řady je jednorozměrný panel (stejně jako průřezová sada dat ). Soubor dat může vykazovat charakteristiky dat panelu i dat časových řad. Jedním ze způsobů, jak to zjistit, je zeptat se, v čem je jeden datový záznam jedinečný od ostatních záznamů. Pokud je odpovědí časové datové pole, pak se jedná o kandidáta datové sady časové řady. Pokud určování unikátního záznamu vyžaduje časové datové pole a dodatečný identifikátor, který nesouvisí s časem (např. ID studenta, symbol akcií, kód země), pak je to kandidát dat panelu. Pokud diferenciace spočívá na časovém identifikátoru, pak je datová sada kandidátem průřezové datové sady.

Analýza

Pro časové řady je k dispozici několik typů motivace a analýzy dat, které jsou vhodné pro různé účely.

Motivace

V kontextu statistiky , ekonometrie , kvantitativních financí , seismologie , meteorologie a geofyziky je primárním cílem analýzy časových řad předpovídání . V souvislosti se zpracováním signálu , řídicí technikou a komunikačním inženýrstvím se používá k detekci signálu. Další aplikace jsou v dolování dat , rozpoznávání vzorů a strojovém učení , kde lze analýzu časových řad použít pro klastrování , klasifikaci , dotazování podle obsahu, detekci anomálií a také předpovídání .

Průzkumná analýza

Výskyt tuberkulózy USA 1953-2009

Jednoduchý způsob, jak zkoumat pravidelné časové řady, je ručně pomocí spojnicového grafu . Vpravo je ukázkový graf výskytu tuberkulózy ve Spojených státech vytvořený pomocí tabulkového procesoru. Počet případů byl standardizován na sazbu na 100 000 a byla vypočtena procentní změna za rok v této sazbě. Téměř neustále klesající čára ukazuje, že výskyt TBC se ve většině let snižoval, ale procentuální změna v této míře se pohybovala až o +/- 10%, s „nárůstem“ v roce 1975 a kolem počátku 90. let. Použití obou svislých os umožňuje srovnání dvou časových řad v jedné grafice.

Mezi další techniky patří:

  • Autokorelační analýza pro zkoumání sériové závislosti
  • Spektrální analýza pro zkoumání cyklického chování, které nemusí souviset se sezónností . Například aktivita slunečních skvrn se mění během 11 letých cyklů. Mezi další běžné příklady patří nebeské jevy, počasí, neurální aktivita, ceny komodit a ekonomická aktivita.
  • Rozdělení na složky představující trend, sezónnost, pomalé a rychlé variace a cyklickou nepravidelnost: viz odhad trendu a rozklad časových řad

Zakřivení

Přizpůsobení křivky je proces konstrukce křivky nebo matematické funkce , která nejlépe vyhovuje řadě datových bodů, případně podléhá omezením. Přizpůsobení křivky může zahrnovat buď interpolaci , kde je požadováno přesné přizpůsobení dat, nebo vyhlazování , ve kterém je vytvořena „hladká“ funkce, která přibližně odpovídá datům. Souvisejícím tématem je regresní analýza , která se více zaměřuje na otázky statistických závěrů, jako například kolik nejistoty je přítomno v křivce, která odpovídá datům pozorovaným s náhodnými chybami. Přizpůsobené křivky lze použít jako pomůcku pro vizualizaci dat, pro odvození hodnot funkce, kde nejsou k dispozici žádná data, a pro shrnutí vztahů mezi dvěma nebo více proměnnými. Extrapolace se týká použití přizpůsobené křivky mimo rozsah pozorovaných dat a podléhá určité míře nejistoty, protože může odrážet metodu použitou pro konstrukci křivky, stejně jako odráží pozorovaná data.

Konstrukce ekonomických časových řad zahrnuje odhad některých komponent pro některá data interpolací mezi hodnotami („benchmarky“) pro dřívější a pozdější data. Interpolace je odhad neznámé veličiny mezi dvěma známými veličinami (historická data) nebo vyvození závěrů o chybějících informacích z dostupných informací („čtení mezi řádky“). Interpolace je užitečná tam, kde jsou k dispozici data obklopující chybějící data a jsou známy její trendy, sezónnost a dlouhodobější cykly. To se často provádí pomocí související řady známé pro všechna relevantní data. Alternativně se používá polynomická interpolace nebo interpolace spline, kde jsou polynomické funkce po částech přizpůsobeny časovým intervalům tak, aby do sebe plynule zapadaly. Jiným problémem, který úzce souvisí s interpolací, je aproximace komplikované funkce jednoduchou funkcí (také nazývanou regrese ). Hlavní rozdíl mezi regresí a interpolací spočívá v tom, že polynomiální regrese dává jediný polynom, který modeluje celý soubor dat. Interpolace splajnu však poskytuje kusovou spojitou funkci složenou z mnoha polynomů k modelování datové sady.

Extrapolace je proces odhadování hodnoty proměnné mimo původní rozsah pozorování na základě jejího vztahu s jinou proměnnou. Je to podobné jako interpolace , která vytváří odhady mezi známými pozorováními, ale extrapolace podléhá větší nejistotě a vyššímu riziku vytváření nesmyslných výsledků.

Aproximace funkce

Obecně nás problém s aproximací funkcí žádá, abychom vybrali funkci mezi dobře definovanou třídou, která přesně odpovídá („aproximuje“) cílovou funkci způsobem specifickým pro daný úkol. Lze rozlišit dvě hlavní třídy problémů aproximace funkcí: Za prvé, pro známé cílové funkce je teorie aproximace oborem numerické analýzy, která zkoumá, jak lze určité známé funkce (například speciální funkce ) aproximovat konkrétní třídou funkcí (např. příklad, polynomy nebo racionální funkce ), které často mají požadované vlastnosti (levné výpočetních, kontinuita, integrální a mezní hodnoty, atd).

Za druhé, cílová funkce, nazývaná g , může být neznámá; místo explicitního vzorce je poskytována pouze sada bodů (časová řada) formuláře ( x , g ( x )). V závislosti na struktuře domény a codomain z g , několik technik pro aproximaci g mohou být použitelné. Pokud je například g operací na skutečných číslech , lze použít techniky interpolace , extrapolace , regresní analýzy a přizpůsobení křivky . Pokud je codoména (rozsah nebo cílová sada) g konečná množina, jedna místo toho řeší problém s klasifikací . Souvisejícím problémem online aproximace časových řad je shrnutí dat v jednom průchodu a vytvoření přibližné reprezentace, která může podporovat různé dotazy časových řad s hranicemi chyby nejhoršího případu.

Různým problémům ( regrese , klasifikace , aproximace kondice ) se do určité míry dostalo jednotného zacházení v teorii statistického učení , kde jsou považovány za problémy s učením pod dohledem .

Predikce a prognózy

Ve statistikách je predikce součástí statistických závěrů . Jeden konkrétní přístup k takové inferenci je známý jako prediktivní odvození , ale predikci lze provést v rámci kteréhokoli z několika přístupů ke statistickému odvozování. Jeden popis statistiky skutečně spočívá v tom, že poskytuje prostředek pro přenos znalostí o vzorku populace do celé populace a do dalších souvisejících populací, což není nutně totéž jako predikce v čase. Když jsou informace přenášeny v čase, často do konkrétních časových bodů, je tento proces známý jako předpovídání .

  • Plně vytvořené statistické modely pro účely stochastické simulace , aby bylo možné generovat alternativní verze časových řad, představující to, co se může v budoucnu stát během nespecifických časových období
  • Jednoduché nebo plně vytvořené statistické modely k popisu pravděpodobného výsledku časové řady v bezprostřední budoucnosti, s ohledem na znalosti nejnovějších výsledků (prognózy).
  • Předpovídání časových řad se obvykle provádí pomocí automatizovaných statistických softwarových balíků a programovacích jazyků, jako je Julia , Python , R , SAS , SPSS a mnoha dalších.
  • Prognózy ve velkém měřítku lze provádět s Apache Spark pomocí knihovny Spark-TS, balíčku jiného výrobce.

Klasifikace

Přiřazení vzoru časových řad ke konkrétní kategorii, například identifikace slova na základě řady pohybů rukou ve znakovém jazyce .

Odhad signálu

Tento přístup je založen na harmonické analýze a filtrování signálů ve frekvenční oblasti pomocí Fourierovy transformace a odhadu spektrální hustoty , jehož vývoj během druhé světové války významně urychlil matematik Norbert Wiener , elektrotechnici Rudolf E. Kálmán , Dennis Gabor a další pro filtrování signálů od šumu a předpovídání hodnot signálu v určitém časovém okamžiku. Viz Kalmanův filtr , teorie odhadů a zpracování digitálního signálu

Segmentace

Rozdělení časové řady na posloupnost segmentů. Často se stává, že časovou řadu lze reprezentovat jako posloupnost jednotlivých segmentů, z nichž každý má své vlastní charakteristické vlastnosti. Zvukový signál z konferenčního hovoru lze například rozdělit na části odpovídající časům, během nichž každá osoba hovořila. V segmentaci časových řad je cílem identifikovat hraniční body segmentů v časové řadě a charakterizovat dynamické vlastnosti spojené s každým segmentem. K tomuto problému lze přistupovat pomocí detekce bodu změny nebo modelováním časových řad jako sofistikovanějšího systému, jako je Markovův skokový lineární systém.

Modely

Modely pro data časových řad mohou mít mnoho podob a představují různé stochastické procesy . Při modelování variací na úrovni procesu jsou tři široké třídy praktického významu autoregresivní (AR) modely, integrované (I) modely a klouzavý průměr (MA). Tyto tři třídy závisejí lineárně na předchozích datových bodech. Kombinace těchto myšlenek vytváří modely autoregresivního klouzavého průměru (ARMA) a autoregresivního integrovaného klouzavého průměru (ARIMA). Autoregresní nepatrně integrované klouzavý průměr (ARFIMA) model zobecňuje bývalý tři. Rozšíření těchto tříd, která se zabývají údaji s vektorovou hodnotou, jsou k dispozici pod hlavičkou vícerozměrných modelů časových řad a někdy jsou předchozí zkratky rozšířeny zahrnutím počátečního „V“ pro „vektor“, jako ve VAR pro automatickou regresi vektoru . Další sada rozšíření těchto modelů je k dispozici pro použití tam, kde je sledovaná časová řada řízena některými „vynucujícími“ časovými řadami (což nemusí mít na sledovanou řadu kauzální účinek): rozdíl od vícerozměrného případu spočívá v tom, že série vynucení může být deterministická nebo pod kontrolou experimentátora. U těchto modelů jsou zkratky rozšířeny o konečné „X“ pro „exogenní“.

Nelineární závislost úrovně řady na předchozích datových bodech je zajímavá, částečně kvůli možnosti vytvoření chaotické časové řady. Ještě důležitější je, že empirická zkoumání mohou naznačovat výhodu použití predikcí odvozených z nelineárních modelů oproti předpovědím z lineárních modelů, jako například v nelineárních autoregresivních exogenních modelech . Další odkazy na analýzu nelineárních časových řad: (Kantz a Schreiber) a (Abarbanel)

Mezi další typy nelineárních modelů časových řad existují modely, které představují změny rozptylu v čase ( heteroskedasticita ). Tyto modely představují autoregresní podmíněnou heteroskedasticitu (ARCH) a soubor zahrnuje širokou škálu reprezentací ( GARCH , TARCH, EGARCH, FIGARCH, CGARCH atd.). Změny ve variabilitě zde souvisejí s nedávnými minulými hodnotami sledované řady nebo je předpovídají. To je v kontrastu s jinými možnými reprezentacemi lokálně proměnné variability, kde variabilita může být modelována tak, že je poháněna odděleným časově proměnným procesem, jako v dvojnásobně stochastickém modelu .

V nedávné práci na analýze bez modelu získaly přízeň metody založené na waveletové transformaci (například lokálně stacionární vlnky a vlnkové rozložené neuronové sítě). Multiscale (často označované jako multiresolution) techniky rozkládají danou časovou řadu a pokoušejí se ilustrovat časovou závislost ve více měřítcích. Pro modelování vývoje volatility viz také Markovovo přepínání multifraktálních (MSMF) technik.

Hidden Markov Model (HMM) je statistický Markov model, ve kterém se předpokládá, že systém je modelován být Markov proces s nepozorované (skrytých) stavů. HMM lze považovat za nejjednodušší dynamickou bayesovskou síť . Modely HMM jsou široce používány v rozpoznávání řeči , pro překlad časové řady mluveného slova do textu.

Zápis

Pro analýzu časových řad se používá řada různých zápisů. Je zapsán společný zápis určující časovou řadu X, která je indexována přirozenými čísly

X = ( X 1 , X 2 , ...).

Další běžný zápis je

Y = ( Y t : tT ),

kde T je nastavený index .

Podmínky

Existují dvě sady podmínek, za kterých je velká část teorie postavena:

Myšlenky stacionarity však musí být rozšířeny o dvě důležité myšlenky: přísnou stacionaritu a stacionaritu druhého řádu . Za každé z těchto podmínek lze vyvinout jak modely, tak aplikace, i když modely v druhém případě lze považovat pouze za částečně specifikované.

Kromě toho lze analýzu časových řad použít tam, kde jsou řady sezónně stacionární nebo nestacionární. Situace, kdy se amplitudy frekvenčních složek mění s časem, lze řešit analýzou časových frekvencí, která využívá časově-frekvenční reprezentaci časové řady nebo signálu.

Nástroje

Mezi nástroje pro zkoumání dat časových řad patří:

Opatření

Metriky nebo funkce časových řad, které lze použít pro klasifikaci časových řad nebo regresní analýzu :

Vizualizace

Časové řady lze zobrazit pomocí dvou kategorií grafu: překrývající se grafy a oddělené grafy. Překrývající se grafy zobrazují všechny časové řady na stejném rozvržení, zatímco oddělené grafy je zobrazují na různých rozloženích (ale zarovnané pro účely srovnání)

Překrývající se grafy

Oddělené grafy

  • Horizontální grafy
  • Zmenšený spojnicový graf (malé násobky)
  • Silueta graf
  • Graf kruhové siluety

Viz také

Reference

Další čtení

externí odkazy