mi az idősorelemzés célja?


Az idősorelemzés egy olyan módszer, amelyben meghatározott időközönként - pl. évente, havonta, hetente stb. - mért adatok sorozatos mintáit elemezzük. Az elemzés célja, hogy feltárjuk ezekben az adatokban meghatározott mintázatokat, összefügéseket (tendenciák, szezonális hatások) és ezeket használva előre jelezzük a várható jövőbeli értékeket a korábban megfigyeltek alapján.
Ennek a megközelítésnek számos alkalmazása van: kapacitásigény és terhelés előrejelzése, üzleti előrejelzés, pénzügyi előrejelzés, tőzsdei adatsorok elemzése, demográfiai és egészségügyi előrejelzések és így tovább.

idősoros analízis és előrejelzési módszertanok


[1] hagyományos idősor elemzés

Múltbeli idősoros adatokon alapuló előrejelzést Excel segítségével is gyorsan, néhány lépésben összeállíthatunk. Az idősoros elemzések lényege, hogy a rendelkezésünkre álló adatokban mintázatokat (szabályszerűségeket) keresünk, például trendeket és szezonális hatásokat, valamint az egyedi hatásokat is megpróbáljuk elkülöníteni. A módszer azon alapul, hogy

  • valamilyen mozgó átlagolási technikával „kisimítjuk” az adatsort,
  • a mozgóátlag változása alapján a tendenciára - vagyis tulajdonképpen az átlagos változásra - készítünk becslést
  • valamint "simított" adatsor és tényleges értékek viszonya alapján a szezonális hatásokat és ún. "zajokat" kiszűrjük, illetve ezek hatásait számszerűsítjük
  • végül pedig a tendencia folytatódását feltételezve a mozgóátlag várható értékeit jelezzük előre, illetve az így kapott értéket eltérítjük az szezonális és véletlen hibahatásokkal

[2] ARIMA módszerek

Az ARIMA modellek egy rendkívül kiterjedt statisztikai idősor elemzési és előrejelzési eszközcsaládot jelentenek: valójában egy olyan "keretrendszerről" van szó, amely különböző típusú modelleket foglal magába. Amikor ARIMA modellekről beszélünk, akkor abba beleértjük az olyan altípusokat, mint például az ARMA, ARIMA, ARIMAX, SARIMAX stb. Ráadásul ezen típusok is számtalan "konfigurációban" állíthatók elő.
Az ARIMA modellek az idősor korábbi értékein alapuló előrejelzésre alkalmasak. Maga az ARIMA egyébként egy mozaik szó, amely az AutoRegressive Integrated Moving Average kezdőbetűiből tevődik össze és matematikailag a nevében foglalt 3 fő komponensből áll:

  • AR - autoregresszív komponens, amely az idősor egy vagy több korábbi értékeire utal, pontosabban ezeknek valamilyen lineáris kombinációjára: pl. a T előrejelzési időszak értéke a T-1 és T-2 értékektől függ valamilyen módon
  • I - ezzel a taggal a tendenciát, vagyis az idősor korábbi változását integráljuk valamilyen módon az előrejelzésbe
  • MA - moving average komponens a nevével ellentétben nem a szokásos mozgó átlagolásra utal, hanem a múltbeli előrejelzési hibák hatását "görgetjük" tovább vele a következő ciklusokra.

[3] regressziós analízis

A fenti technikákat elsősorban akkor érdemes használni, ha feltételezhető, hogy az idősorban kialakult múltbeli mintázatok - tendenciák, szezonális hatások, stb. - a jövőben is igazak lesznek. A többváltozós regressziós elemzések során megpróbáljuk az idősor várható értékeit külső, az idősor korábbi értékeitől független változók alapján megbecsülni. Például a bevételi előrejelzéshez használhatjuk a piacméret (vevők száma), tervezett marketing költséseink összege, hőmérséklet vagy egyéb független változókat. A regressziós analízis egy olyan statisztikai adatelemzési módszer, ahol cél vagy függő változó - jelen esetben bevétel - a független változók értéke közötti függvényszerű kapcsolatot keressük.
Ugyanakkor érdemes megjegyezni, hogy regressziós módszerrel fentiekben leírt klasszikus idősoros előrejelzűő modell is készíthető. Sőt tulajdonképpen az ARIMA modellek hátterében is regressziós modellek állnak és ezen belül is az ARIMAX modell egy olyan vegyes regresszisó modell, ahol az idősor korábbi értékei valamint külső változók egyaránt szerepet kapnak az előrejelzésben.

[4] neurális hálózatok

A neurális hálózatok olyan matematikai struktúrák (gráf alapú modellek), amelyek az idegrendszer működésének elvét másolva tanulnak meg felismerni egy ún. tanuló adathalmaz alapján bizonyos összefüggéseket. Az idősoros bevételi adatok vizsgálata esetében ez konkrétan azt jelenti, hogy a múltbeli értékesítési adatokban rejlő mintázatok alapján a hálózat azt próbálja kikövetkeztetni, hogyan fognak a bevételeink alakulni?

A neurális hálózatoknak, az ARIMA modellekhez hasonlóan, számos típusa létezik, amely többek között a hálózat struktúrája (pl. rétegek száma) és a jelátvitelért felelős neuronok, azokban alkalmazott ún. aktivációs függvények határoznak meg. A két hálózat típus amivel mi most foglalkozunk a "hagyományos" multilayer perceptron illetve az ún. LSTM hálózatok (ezen kívül vannak még egyéb hálózat típusok, mint pl. a "CNN - convolutional NN", amelyet a képfeldolgozásban használnak).