1 / 24

Projekt BLUE-ETS

Projekt BLUE-ETS. 1.04.2010 – 31.03.2013. Charakteristika projektu. BLUE-ETS je akronym názvu BLUE-Enterprise and Trade Statistics projekt financovan ý zo 7. rámcového programu Európskej komisie, téma 8: Socio-ekonomické a humanitné vedné disciplíny (číslo projektu: SSH-CT-2010 –244767 )

rasul
Download Presentation

Projekt BLUE-ETS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekt BLUE-ETS 1.04.2010 – 31.03.2013

  2. Charakteristika projektu • BLUE-ETS je akronym názvu BLUE-Enterprise and Trade Statistics • projekt financovaný zo 7. rámcového programu Európskej komisie, téma 8: Socio-ekonomické a humanitné vedné disciplíny (číslo projektu: SSH-CT-2010 –244767) • projekt je založený na spolupráci viacerých inštitúcií v rámci EÚ • problematika riešená v BLUE-ETS: • - obchodná štatistika • - kľúčová výzva pre štatistické úrady v EÚ: poskytovanie vysoko kvalitných a robustných štatistických informácií pre efektívny socio-ekonomický a politický výskum a pre podporu Európskej stratégie 2020

  3. Ciele projektu • Hlavná motivácia BLUE-ETS: • reagovať na meniaci sa dopyt po nových a lepších údajoch • vyvinúť nové spôsoby zberu, šírenia, využívania a sprístupňovania údajov pre výskumné a politické účely • znižovanie administratívnej záťaže podnikov • Ďalšie ciele: • zdokonaľovanie štatistických znalostí a metodológie • vybudovanie najlepšej praxe v oblasti obchodnej štatistiky • doplnenie a posilnenie programu MEETS (modernizácia európskej podnikateľskej a obchodnej štatistiky)

  4. Konzorcium Štatistické úrady: ISTAT - Italian National Institute of Statistics (Taliansko) – koordinátor projektu CBS - Statistics Netherlands (Holandsko) SSB - Statistics Norway (Nórsko) SCB - Statistics Sweden (Švédsko) SORS - Statistics Slovenia (Slovinsko) Akademický výskum: UNIBO - University of Bologna (Taliansko) UL - University of Ljubljana (Slovinsko) UNINA - University of Naples (Taliansko) UT - University of Trier (Nemecko) UNIBG - University of Bergamo (Taliansko) UoS - University of Southampton (Veľká Británia) Štatistický a analytický výskum: INFOSTAT - Institute of Informatics and Statistics (Slovensko) CEPS - Centre for European Policy Studies (Belgicko) IAB - Institute for Employment Research (Nemecko)

  5. WP1 Manažment a administratíva projektu WP2 Zníženie záťaže podnikov a ich motivácia WP3 Podnikové štatistiky očami podnikov WP4 Zlepšenie využívania administratívnych zdrojov WP5 Nové spôsoby zberu a analýzy informácií WP6 Zvýšenie kvality podnikových štatistík WP7 Integrácia, systematizácia a prístup k podnikovým štatistikám WP8 – Metodologické prípadové štúdie WP9 – Nové typy indikátorov WP10 – Zlepšenie dialógu medzi európskymi ŠÚ a užívateľmi štatistických údajov WP11 Vedecká koordinácia, diseminácia a externé hodnotenie výsledkov projektu Obsah BLUE-ETS:

  6. Účasť INFOSTATu v projekte WP4 (CBS,ISTAT,SSB,SCB,INFOSTAT):zlepšenie využívania administratívnych zdrojov dát WP5 (INFOSTAT,UNINA):nové prístupy k zberu a analyzovaniu informácií WP8 (INFOSTAT,CBS,SSB,UL,SCB,ISTAT,SORS,UNIBG):metodologické prípadové štúdie výstupov z WP2 – WP5

  7. WP4 – zlepšenie využitia administratívnych zdrojov dát Výskum v oblasti hodnotenia kvality administratívnych zdrojov dát: • vytvorenie zoznamu indikátorov kvality pre administratívne zdroje údajov (prehľad používaných indikátorov kvality a návrh nových indikátorov) • vytvorenie jednotnej metodológie pre správy o kvalite administratívnych zdrojov údajov • naprogramovanie tzv. Quality Report Card (účasť INFOSTATu) 27M = jún 2012

  8. WP5 – zber a analýza dát Inovatívne metódy, nástroje a postupy vyvinuté pre efektívnejšie využitie potenciálu administratívnych údajov, napr. opätovné využitie dát zbieraných v rámci systému Intrastat (vzhľadom na ciele programu MEETS). Zber dát (UNINA): • získavanie údajov z textových súborov (text mining) Analýza dát (INFOSTAT): • analýza nazbieraných dát tzv. soft computing metódami, ktoré sa využívajú pri analýzach veľkých súborov údajov (data mining)

  9. WP5 - charakteristika štatistických dát • Veľké objemy dát sa nachádzajú v rôznorodých zdrojoch: databázy a textové súbory.Pri analýze takého veľkého objemu rôznorodých dát nestačia klasické analytické metódy a techniky a vznikajú výrazné ťažkosti pri výbere vhodných dát pre ďalšie použitie. • Potenciál údajov môže byť pre štatistické účely značný. Údaje sa často prirovnávajú k tzv. "zlatej bani", ktorej obsah možno získavať a analyzovať pre rôzne účely. • Nazbierané údaje nevytvárajú žiadnu pridanú hodnotu bez analýz a hľadaní ďalších užitočných informácií vo vnútri dát.

  10. WP5 – Čo je to soft computing? • Soft computing je inšpirovaný ľudskou schopnosťou vyriešiť široké spektrum problémov bez presných meraní a výpočtov. • Každá technika ktorá zahŕňa výpočty pomocou výrazov prirodzeného jazyka alebo používa mechanizmy inšpirované biologickou evolúciou a ľudským vnímaním patrí medzi metódy soft computingu. • Soft computing pracuje s nejednoznačnosťami, nejasnosťami, neúplnými informáciami a rieši problémy, ktoré nie sú ľahko riešiteľné pomocou bežných výpočtových techník.

  11. WP5 - Prečo práve soft computing? Soft computing je vhodný v nasledujúcich prípadoch: • ak neexistujú úplné dáta a v dátach sa vyskytujú odchýlky • pri nepresnostiach a nejednoznačnosti hodnôt ukazovateľov príp. parametrov modelu • ak sa vyskytujú nelineárne a chaotické vzťahy alebo štruktúry medzi údajmi • keď chce užívateľ odhaliť viac informácií ako umožňujú klasické analytické nástroje

  12. WP5 - Nástroje soft computingu Fuzzy logika Genetické programovanie Neurónové siete

  13. Nástroj č. 1 – Fuzzy (rozplynutá, neostrá) logika: Fuzzy logika je inšpirovaná ľudskou vlastnosťou nájsť riešenie bez presných meraní a výpočtov. Pojem fuzzy množiny a fuzzy logika zaviedol prof. Zadeh v roku 1965: “More often than not, the classes of objects encountered in real physical world do not have precisely defined criteria of membership”. Fuzzy logika umožňuje pracovať s dátami (výber, klasifikácia, diseminácia, ukladanie dát) použitím výrazov prirodzeného jazyka. Pre ľudí je prirodzenejšie sa vyjadriť pomocou tzv. fuzzy konceptov, napr. nízka záťaž respondentov, vysoká migrácia, približne 10 atď. Tieto výrazy obsahujú neurčitosť a nejednoznačnosť, ktorej informačné systémy pracujúce s dvojhodnotovou logikou nerozumejú a tedaju ani nemôžu používať.

  14. Fuzzy logika - selekcia dát Ako vybrať relevantné dáta z relačných databáz? Klasické dotazy (napr. SQL dotazy) selektujú dáta, ktoré spĺňajú podmienky definované číslami (napr.: hodnota>100). Fuzzy selekcia umožňuje používateľovi definovať podmienky výrazmi podobnými prirodzenému jazyku a vyjadriť svoje preferencie ohľadom relevantných dát. Fuzzy dotazy selektujú nielen dáta, ktoré úplne spĺňajú podmienku, ale aj tie, ktoré ju čiastočne spĺňajú a navyše zotriedia takto selektované údaje. Tento prístup je vhodné použiť napríklad pri výbere vhodných dát pre ďalšie použitie alebo v diseminácii dát pre širokú verejnosť.(napr.: obce, ktoré majú vysokú nezamestnanosť, nízke saldo migrácie a nadmorskú výšku približne 500m). Ak použijeme správne nástroje, databázy nám môžu ponúknuť nielen dáta, ale aj ďalšie užitočné informácie pre ďalšie použitie. Územia s vysokou nadmorskou výškou.

  15. Fuzzy logika - klasifikácia dát Problém klasifikácie dát sa definuje if-then pravidlami a výrazmi prirodzeného jazyka, keď sa hranice tried nemôžu jednoznačne určiť. Triedy majú prekrývajúce sa hranice, čo znamená, že objekt môže čiastočne patriť do viacerých tried. Navyše, model je ľahko čitateľný a modifikovateľný. Objekty sú klasifikované plynulo. Ak sú hodnoty indikátorov pre niektoré objekty podobné, potom sú aj objekty podobne hodnotené. Objekty sa triedia z veľkej neprehľadnej množiny do napr. nasledovných tried: kľúčové, významné, nevýznamné. Napr.: respondenti sa môžu týmto spôsobom zotriediť, čím sa umožní cielená motivácia pre včasné poskytovanie údajov. Bežná klasifikácia Fuzzy klasifikácia

  16. Fuzzy databázy – nový spôsob uloženia dát V oblasti ukladania dát do databáz skúmame, ako umožniť uloženie nielen presných hodnôt ale aj tzv. fuzzy čísiel a fuzzy množín. Ak nemá respondent k dispozícii presný údaj, môže ho opísať fuzzy číslom. Často sú databázy “deravé”, lebo nie je možné získať všetky údaje presne. Navyše niektoré reálne údaje nie je možné adekvátne opísať presnými číslami, napríklad údaje o kvalite života. Príklad tabuľky v databáze Firma M1 M2 M3 . A 250 približne 10 skôr nízke B 300 120 viac ako M2 C nízka približne 50 asi 200 D neznáma [50, 60] 900 Fuzzy logika a possibility distribution funkcie umožňujú selektovať a triediť objekty použitím takto uložených hodnôt indikátorov. Náš hlavný zámer v tejto oblasti bude skúmanie vedeckých publikácií a možností praktickej realizácie v oblasti zberu a uloženia štatistických údajov a informácií.

  17. Nástroj č. 2 – Genetické programovanie: Počítačová veda (ComputerScience): Umelá inteligencia (ArtificialIntelligence) Výpočtová inteligencia • (ComputationalIntelligence) • (fuzzy systémy, genetické programovanie, neurónové siete) GENETICKÉ PROGRAMOVANIE Pojem genetické programovanie zaviedol J. R. Koza v roku 1992 a je založené na pôvodných genetických algoritmoch (J. Holland, 1975). využíva poznatky iných vied (biológia, genetika, ekológia) • riešenia určitého problému predstavujú určitú populáciu, túto populáciu transformujeme pomocou kríženia a mutácie (genetických operácií) na novšie, lepšie populácie, až po generáciu, kde nájdeme riešenia blízkoglobálneho optima. Evolučné výpočty sú široko využívané, lebo riešia problémy AUTOMATICKY, bez potrebného poznania štruktúry a formy konečného riešenia.

  18. Genetické programovanie – využitie: • Klasifikácia • Rozdelenie bázy dát do skupín. Na rozdiel od tradičnej klasifikácie, kde dopredu poznáme skupiny i kritériá zaradenia (napr. malé podniky pod 50 zamestnancov, veľké podniky nad 50 zamestnancov), pomocou GP sú zaraďované dáta do skupín na základe dopredu neznámych kategórií. Napr. GP automaticky vyhľadá, ktoré kombinácie vlastností majú podniky najčastejšie, keď prekračujú určitý prah vývozu (nejedná sa o jednu-dve vlastnosti, ale o väčší počet vlastností), pracuje sa s obrovským množstvom dát. Použijú sa pravidlá IF, THEN, OR atď. Táto metóda by sa mala využívať spoločne s fuzzy pravidlami. • Zhlukovanie (clustering) • Automatické vytváranie zhlukov na základe podobnej vnútornej štruktúry, pričom nie sú známe dopredu vlastnosti, na základe ktorých sa dáta zaraďujú do zhlukov. V tomto prípade môžeme pomocou GP vytvoriť na základe podobných vlastností neznámy počet zhlukov s najväčšou podobnosťou. Program nám automaticky rozdelí bázu dát na podobné zhluky. • Regresia • Pomocou regresie sa snažíme odhadnúť vlastnosti určitého objektu na základe iných vlastností (objektov). Pomocou GP zistíme napríklad závislosť vývozu určitých skupín jednotiek od dovozu určitej skupiny tovarov a následne môžeme tieto závislosti modelovať. Na rozdiel od tradičných metód, GP nám automaticky nájde skupiny (zhluky), ktoré vykazujú medzi sebou závislosť na základe dopredu neznámych vlastností (zhlukov vlastností).

  19. Genetické programovanie – využitie: 4. Detekcia zmien a odchýlok Ide o odhaľovanie výrazných zmien v dátach na základe pôvodne meraných normatívnych hodnôt. Na základe časových radov údajov dlhých niekoľko mesiacov sa môže vytvoriť určitý model správania sa dát (GP nájde najrobustnejšie štatistiky vlastností). V ďalších mesiacoch sa môže model využiť pre porovnávanie a tým na odhaľovanie najväčších odchýlok v dátach. • Odhady a prognózy • Na základe nájdených vzťahov v databáze dochádza k doplňovaniu chýbajúcich dát alebo k ich prognózam do budúcnosti. Na tento účel môžu byť využité informácie z predošlých bodov analýzy – zhlukovania, regresie, detekcie zmien a odchýlok. Na odhad chýbajúcich dát by sa použila vysoko sofistikovaná automatizovaná metóda. Genetické programovanie slúži na zavedenie umelej inteligencie do analýzy obrovského počtu dát s rôznorodými vlastnosťami, ktoré nie je možné analyzovať tradičnými metódami (časové, výpočtové ohraničenia).

  20. Nástroj č. 3 - Neurónové siete: Neurónové siete sú výpočtové modely zostavené na základe abstrakcie vlastností biologických nervových systémov. Základnou časťou neurónovej siete je model neurónu s N vstupmi a M výstupmi. Samotná neurónová sieť sa môže skladať z viacerých vrstiev s rôznym počtom neurónov, ktoré sú navzájom poprepájané rôznym spôsobom. Neurónová sieť s 1 vrstvou

  21. Neurónové siete – využitie v štatistike: • Neurónové siete je možné využiť na analyzovanie veľkého množstva údajov a tiež ako optimalizačný nástroj. Sú však vhodné aj v prípade analyzovania menšieho množstva údajov s extrémnymi hodnotami. • schopnosť klasifikácie k najbližšiemu vzoru, pričom požadované vlastnosti nemusia byť presne dané (alternatíva k fuzzy prístupu) • predikcia budúceho vývoja založená na minulých hodnotách • predikcia latentných premenných, ktoré nie je možné v praxi merať • riešenie nelineárnych regresných problémov

  22. Zhrnutie - cieľ WP5 • Využiť metódy soft computingu pri analýzach veľkých súborov štatistických údajov a získať z nich týmito postupmi nové informácie. 30M = september 2012

  23. WP8 – nové perspektívy a potenciál nových metodológií Hodnotenie nástrojov a metód vyvinutých pre motiváciu respondentov v rámci WP2 a WP3 za účelom ich zavedenia do štatistickej praxe a ich prípadné testovanie ďalšími štatistickými úradmi. V rámci tejto oblasti sa budú testovať aj metódy vyvinuté vo WP5, pričom ich vzájomná kombinácia môže viesť k vytvoreniu efektívnych databáz údajov. 32M = november 2012

  24. Ďakujem za pozornosť. Miroslav Hudec hudec@infostat.sk Miroslav Kľúčikklucik@infostat.sk Jana Juriová juriova@infostat.sk

More Related