Projekt BLUE-ETS

Projekt BLUE-ETS 1.04.2010 – 31.03.2013

Charakteristika projektu • BLUE-ETS je akronym názvu BLUE-Enterprise and Trade Statistics • projekt financovaný zo 7. rámcového programu Európskej komisie, téma 8: Socio-ekonomické a humanitné vedné disciplíny (číslo projektu: SSH-CT-2010 –244767) • projekt je založený na spolupráci viacerých inštitúcií v rámci EÚ • problematika riešená v BLUE-ETS: • - obchodná štatistika • - kľúčová výzva pre štatistické úrady v EÚ: poskytovanie vysoko kvalitných a robustných štatistických informácií pre efektívny socio-ekonomický a politický výskum a pre podporu Európskej stratégie 2020

Ciele projektu • Hlavná motivácia BLUE-ETS: • reagovať na meniaci sa dopyt po nových a lepších údajoch • vyvinúť nové spôsoby zberu, šírenia, využívania a sprístupňovania údajov pre výskumné a politické účely • znižovanie administratívnej záťaže podnikov • Ďalšie ciele: • zdokonaľovanie štatistických znalostí a metodológie • vybudovanie najlepšej praxe v oblasti obchodnej štatistiky • doplnenie a posilnenie programu MEETS (modernizácia európskej podnikateľskej a obchodnej štatistiky)

Konzorcium Štatistické úrady: ISTAT - Italian National Institute of Statistics (Taliansko) – koordinátor projektu CBS - Statistics Netherlands (Holandsko) SSB - Statistics Norway (Nórsko) SCB - Statistics Sweden (Švédsko) SORS - Statistics Slovenia (Slovinsko) Akademický výskum: UNIBO - University of Bologna (Taliansko) UL - University of Ljubljana (Slovinsko) UNINA - University of Naples (Taliansko) UT - University of Trier (Nemecko) UNIBG - University of Bergamo (Taliansko) UoS - University of Southampton (Veľká Británia) Štatistický a analytický výskum: INFOSTAT - Institute of Informatics and Statistics (Slovensko) CEPS - Centre for European Policy Studies (Belgicko) IAB - Institute for Employment Research (Nemecko)

WP1 Manažment a administratíva projektu WP2 Zníženie záťaže podnikov a ich motivácia WP3 Podnikové štatistiky očami podnikov WP4 Zlepšenie využívania administratívnych zdrojov WP5 Nové spôsoby zberu a analýzy informácií WP6 Zvýšenie kvality podnikových štatistík WP7 Integrácia, systematizácia a prístup k podnikovým štatistikám WP8 – Metodologické prípadové štúdie WP9 – Nové typy indikátorov WP10 – Zlepšenie dialógu medzi európskymi ŠÚ a užívateľmi štatistických údajov WP11 Vedecká koordinácia, diseminácia a externé hodnotenie výsledkov projektu Obsah BLUE-ETS:

Účasť INFOSTATu v projekte WP4 (CBS,ISTAT,SSB,SCB,INFOSTAT):zlepšenie využívania administratívnych zdrojov dát WP5 (INFOSTAT,UNINA):nové prístupy k zberu a analyzovaniu informácií WP8 (INFOSTAT,CBS,SSB,UL,SCB,ISTAT,SORS,UNIBG):metodologické prípadové štúdie výstupov z WP2 – WP5

WP4 – zlepšenie využitia administratívnych zdrojov dát Výskum v oblasti hodnotenia kvality administratívnych zdrojov dát: • vytvorenie zoznamu indikátorov kvality pre administratívne zdroje údajov (prehľad používaných indikátorov kvality a návrh nových indikátorov) • vytvorenie jednotnej metodológie pre správy o kvalite administratívnych zdrojov údajov • naprogramovanie tzv. Quality Report Card (účasť INFOSTATu) 27M = jún 2012

WP5 – zber a analýza dát Inovatívne metódy, nástroje a postupy vyvinuté pre efektívnejšie využitie potenciálu administratívnych údajov, napr. opätovné využitie dát zbieraných v rámci systému Intrastat (vzhľadom na ciele programu MEETS). Zber dát (UNINA): • získavanie údajov z textových súborov (text mining) Analýza dát (INFOSTAT): • analýza nazbieraných dát tzv. soft computing metódami, ktoré sa využívajú pri analýzach veľkých súborov údajov (data mining)

WP5 - charakteristika štatistických dát • Veľké objemy dát sa nachádzajú v rôznorodých zdrojoch: databázy a textové súbory.Pri analýze takého veľkého objemu rôznorodých dát nestačia klasické analytické metódy a techniky a vznikajú výrazné ťažkosti pri výbere vhodných dát pre ďalšie použitie. • Potenciál údajov môže byť pre štatistické účely značný. Údaje sa často prirovnávajú k tzv. "zlatej bani", ktorej obsah možno získavať a analyzovať pre rôzne účely. • Nazbierané údaje nevytvárajú žiadnu pridanú hodnotu bez analýz a hľadaní ďalších užitočných informácií vo vnútri dát.

WP5 – Čo je to soft computing? • Soft computing je inšpirovaný ľudskou schopnosťou vyriešiť široké spektrum problémov bez presných meraní a výpočtov. • Každá technika ktorá zahŕňa výpočty pomocou výrazov prirodzeného jazyka alebo používa mechanizmy inšpirované biologickou evolúciou a ľudským vnímaním patrí medzi metódy soft computingu. • Soft computing pracuje s nejednoznačnosťami, nejasnosťami, neúplnými informáciami a rieši problémy, ktoré nie sú ľahko riešiteľné pomocou bežných výpočtových techník.

WP5 - Prečo práve soft computing? Soft computing je vhodný v nasledujúcich prípadoch: • ak neexistujú úplné dáta a v dátach sa vyskytujú odchýlky • pri nepresnostiach a nejednoznačnosti hodnôt ukazovateľov príp. parametrov modelu • ak sa vyskytujú nelineárne a chaotické vzťahy alebo štruktúry medzi údajmi • keď chce užívateľ odhaliť viac informácií ako umožňujú klasické analytické nástroje

WP5 - Nástroje soft computingu Fuzzy logika Genetické programovanie Neurónové siete

Nástroj č. 1 – Fuzzy (rozplynutá, neostrá) logika: Fuzzy logika je inšpirovaná ľudskou vlastnosťou nájsť riešenie bez presných meraní a výpočtov. Pojem fuzzy množiny a fuzzy logika zaviedol prof. Zadeh v roku 1965: “More often than not, the classes of objects encountered in real physical world do not have precisely defined criteria of membership”. Fuzzy logika umožňuje pracovať s dátami (výber, klasifikácia, diseminácia, ukladanie dát) použitím výrazov prirodzeného jazyka. Pre ľudí je prirodzenejšie sa vyjadriť pomocou tzv. fuzzy konceptov, napr. nízka záťaž respondentov, vysoká migrácia, približne 10 atď. Tieto výrazy obsahujú neurčitosť a nejednoznačnosť, ktorej informačné systémy pracujúce s dvojhodnotovou logikou nerozumejú a tedaju ani nemôžu používať.

Fuzzy logika - selekcia dát Ako vybrať relevantné dáta z relačných databáz? Klasické dotazy (napr. SQL dotazy) selektujú dáta, ktoré spĺňajú podmienky definované číslami (napr.: hodnota>100). Fuzzy selekcia umožňuje používateľovi definovať podmienky výrazmi podobnými prirodzenému jazyku a vyjadriť svoje preferencie ohľadom relevantných dát. Fuzzy dotazy selektujú nielen dáta, ktoré úplne spĺňajú podmienku, ale aj tie, ktoré ju čiastočne spĺňajú a navyše zotriedia takto selektované údaje. Tento prístup je vhodné použiť napríklad pri výbere vhodných dát pre ďalšie použitie alebo v diseminácii dát pre širokú verejnosť.(napr.: obce, ktoré majú vysokú nezamestnanosť, nízke saldo migrácie a nadmorskú výšku približne 500m). Ak použijeme správne nástroje, databázy nám môžu ponúknuť nielen dáta, ale aj ďalšie užitočné informácie pre ďalšie použitie. Územia s vysokou nadmorskou výškou.

Fuzzy logika - klasifikácia dát Problém klasifikácie dát sa definuje if-then pravidlami a výrazmi prirodzeného jazyka, keď sa hranice tried nemôžu jednoznačne určiť. Triedy majú prekrývajúce sa hranice, čo znamená, že objekt môže čiastočne patriť do viacerých tried. Navyše, model je ľahko čitateľný a modifikovateľný. Objekty sú klasifikované plynulo. Ak sú hodnoty indikátorov pre niektoré objekty podobné, potom sú aj objekty podobne hodnotené. Objekty sa triedia z veľkej neprehľadnej množiny do napr. nasledovných tried: kľúčové, významné, nevýznamné. Napr.: respondenti sa môžu týmto spôsobom zotriediť, čím sa umožní cielená motivácia pre včasné poskytovanie údajov. Bežná klasifikácia Fuzzy klasifikácia

Fuzzy databázy – nový spôsob uloženia dát V oblasti ukladania dát do databáz skúmame, ako umožniť uloženie nielen presných hodnôt ale aj tzv. fuzzy čísiel a fuzzy množín. Ak nemá respondent k dispozícii presný údaj, môže ho opísať fuzzy číslom. Často sú databázy “deravé”, lebo nie je možné získať všetky údaje presne. Navyše niektoré reálne údaje nie je možné adekvátne opísať presnými číslami, napríklad údaje o kvalite života. Príklad tabuľky v databáze Firma M1 M2 M3 . A 250 približne 10 skôr nízke B 300 120 viac ako M2 C nízka približne 50 asi 200 D neznáma [50, 60] 900 Fuzzy logika a possibility distribution funkcie umožňujú selektovať a triediť objekty použitím takto uložených hodnôt indikátorov. Náš hlavný zámer v tejto oblasti bude skúmanie vedeckých publikácií a možností praktickej realizácie v oblasti zberu a uloženia štatistických údajov a informácií.

Nástroj č. 2 – Genetické programovanie: Počítačová veda (ComputerScience): Umelá inteligencia (ArtificialIntelligence) Výpočtová inteligencia • (ComputationalIntelligence) • (fuzzy systémy, genetické programovanie, neurónové siete) GENETICKÉ PROGRAMOVANIE Pojem genetické programovanie zaviedol J. R. Koza v roku 1992 a je založené na pôvodných genetických algoritmoch (J. Holland, 1975). využíva poznatky iných vied (biológia, genetika, ekológia) • riešenia určitého problému predstavujú určitú populáciu, túto populáciu transformujeme pomocou kríženia a mutácie (genetických operácií) na novšie, lepšie populácie, až po generáciu, kde nájdeme riešenia blízkoglobálneho optima. Evolučné výpočty sú široko využívané, lebo riešia problémy AUTOMATICKY, bez potrebného poznania štruktúry a formy konečného riešenia.

Genetické programovanie – využitie: • Klasifikácia • Rozdelenie bázy dát do skupín. Na rozdiel od tradičnej klasifikácie, kde dopredu poznáme skupiny i kritériá zaradenia (napr. malé podniky pod 50 zamestnancov, veľké podniky nad 50 zamestnancov), pomocou GP sú zaraďované dáta do skupín na základe dopredu neznámych kategórií. Napr. GP automaticky vyhľadá, ktoré kombinácie vlastností majú podniky najčastejšie, keď prekračujú určitý prah vývozu (nejedná sa o jednu-dve vlastnosti, ale o väčší počet vlastností), pracuje sa s obrovským množstvom dát. Použijú sa pravidlá IF, THEN, OR atď. Táto metóda by sa mala využívať spoločne s fuzzy pravidlami. • Zhlukovanie (clustering) • Automatické vytváranie zhlukov na základe podobnej vnútornej štruktúry, pričom nie sú známe dopredu vlastnosti, na základe ktorých sa dáta zaraďujú do zhlukov. V tomto prípade môžeme pomocou GP vytvoriť na základe podobných vlastností neznámy počet zhlukov s najväčšou podobnosťou. Program nám automaticky rozdelí bázu dát na podobné zhluky. • Regresia • Pomocou regresie sa snažíme odhadnúť vlastnosti určitého objektu na základe iných vlastností (objektov). Pomocou GP zistíme napríklad závislosť vývozu určitých skupín jednotiek od dovozu určitej skupiny tovarov a následne môžeme tieto závislosti modelovať. Na rozdiel od tradičných metód, GP nám automaticky nájde skupiny (zhluky), ktoré vykazujú medzi sebou závislosť na základe dopredu neznámych vlastností (zhlukov vlastností).

Genetické programovanie – využitie: 4. Detekcia zmien a odchýlok Ide o odhaľovanie výrazných zmien v dátach na základe pôvodne meraných normatívnych hodnôt. Na základe časových radov údajov dlhých niekoľko mesiacov sa môže vytvoriť určitý model správania sa dát (GP nájde najrobustnejšie štatistiky vlastností). V ďalších mesiacoch sa môže model využiť pre porovnávanie a tým na odhaľovanie najväčších odchýlok v dátach. • Odhady a prognózy • Na základe nájdených vzťahov v databáze dochádza k doplňovaniu chýbajúcich dát alebo k ich prognózam do budúcnosti. Na tento účel môžu byť využité informácie z predošlých bodov analýzy – zhlukovania, regresie, detekcie zmien a odchýlok. Na odhad chýbajúcich dát by sa použila vysoko sofistikovaná automatizovaná metóda. Genetické programovanie slúži na zavedenie umelej inteligencie do analýzy obrovského počtu dát s rôznorodými vlastnosťami, ktoré nie je možné analyzovať tradičnými metódami (časové, výpočtové ohraničenia).

Nástroj č. 3 - Neurónové siete: Neurónové siete sú výpočtové modely zostavené na základe abstrakcie vlastností biologických nervových systémov. Základnou časťou neurónovej siete je model neurónu s N vstupmi a M výstupmi. Samotná neurónová sieť sa môže skladať z viacerých vrstiev s rôznym počtom neurónov, ktoré sú navzájom poprepájané rôznym spôsobom. Neurónová sieť s 1 vrstvou

Neurónové siete – využitie v štatistike: • Neurónové siete je možné využiť na analyzovanie veľkého množstva údajov a tiež ako optimalizačný nástroj. Sú však vhodné aj v prípade analyzovania menšieho množstva údajov s extrémnymi hodnotami. • schopnosť klasifikácie k najbližšiemu vzoru, pričom požadované vlastnosti nemusia byť presne dané (alternatíva k fuzzy prístupu) • predikcia budúceho vývoja založená na minulých hodnotách • predikcia latentných premenných, ktoré nie je možné v praxi merať • riešenie nelineárnych regresných problémov

Zhrnutie - cieľ WP5 • Využiť metódy soft computingu pri analýzach veľkých súborov štatistických údajov a získať z nich týmito postupmi nové informácie. 30M = september 2012

WP8 – nové perspektívy a potenciál nových metodológií Hodnotenie nástrojov a metód vyvinutých pre motiváciu respondentov v rámci WP2 a WP3 za účelom ich zavedenia do štatistickej praxe a ich prípadné testovanie ďalšími štatistickými úradmi. V rámci tejto oblasti sa budú testovať aj metódy vyvinuté vo WP5, pričom ich vzájomná kombinácia môže viesť k vytvoreniu efektívnych databáz údajov. 32M = november 2012

Ďakujem za pozornosť. Miroslav Hudec hudec@infostat.sk Miroslav Kľúčikklucik@infostat.sk Jana Juriová juriova@infostat.sk

Projekt BLUE-ETS

Projekt BLUE-ETS

Presentation Transcript

Ets Pasqua

ETS

ETS

ETS

e UMB ETS Enhancements

TOEFL – ETS = ON preparation

Donatella Fazio BLUE-ETS project coordinator Maria Grazia Calza BLUE-ETS senior researcher ISTAT

Data Consistency: EU-ETS/UNFCCC Setting the scene - EU ETS

ETS E ITUS

ETS videregående skole

ETS NEXUS

EMPLOYEE TRACKING SYSTEM (ETS)

Cover your ASS ets

Komitologie und ETS

L ets Review!!!

ETS Budget Report

ETS/SEPARATION BRIEFING

Dylan Wiliam ETS dwiliam@ets

ets e-strategy

ETS - Vorstellung Everest Trading Solutions, Traden lernen ETS

EU ETS: Linking

Donatella Fazio BLUE-ETS project coordinator Maria Grazia Calza BLUE-ETS senior researcher ISTAT