Statistische afstanden gebruiken voor realtime validatie van sensornetwerken
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
Deel: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/nl/
Overlapping kernel densities,
(credits)

In 2008, toen het World Air Quality-project van start ging, waren alle bestaande meetstations voor de luchtkwaliteit gebaseerd op zeer professionele en dure BAM- en TOEM-technologie. Dit soort stations worden altijd onderhouden door professionele en hooggekwalificeerde operators - en dit zorgt ervoor dat de output van dit station kan worden vertrouwd.

Twaalf jaar later bestaan de stations BAM en TOEM nog steeds. Maar met de ontwikkeling van laserverstrooiingstechnologie en goedkope stofsensoren worden de BAM- en TOEM-stations nu in aantal overtroffen door immense en dichte goedkope sensornetwerken. Tegenwoordig zijn er maar zo veel van die netwerken - om er maar een paar te noemen: urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, groene lucht, enz..

Een van de fundamentele problemen met het goedkope sensornetwerk is hun betrouwbaarheid: aangezien veel van deze sensoren niet goed worden onderhouden (of helemaal niet worden onderhouden), is de hoeveelheid sensoren die volledig verkeerde metingen produceert niet te verwaarlozen. Bovendien maakt het grootste deel van het netwerk geen gebruik van stations met gerepliceerde sensoren (in tegenstelling tot ons Gaia- station, dat drie gerepliceerde sensoren gebruikt), waardoor het nog moeilijker wordt om te weten wanneer een enkele sensor defect is.

In dit artikel zullen we kijken naar het sensornetwerk dat wordt ingezet in de prachtige stad Volos in Griekenland, en de middelen bestuderen om de betrouwbaarheid van stations in realtime te kwalificeren en te kwantificeren.


--

De prachtige stad Volos in Griekenland

Volos (Grieks: Βόλος) is een havenstad aan de kust. Met een bevolking van 144.449 (2011) is het ook de zesde meest bevolkte stad van Griekenland. Het is een belangrijk industrieel centrum, terwijl de haven een brug vormt tussen Europa en Azië. Er zijn momenteel 5 stations in Volos: één van de Griekse EPA , die gegevens per uur levert van een professioneel BAM-station, en 4 goedkope realtime stations van het lutf-daten- netwerk:



Het Volos EPA-station bevindt zich in het gebouw van het gedecentraliseerde bestuur van Thessalië en Centraal-Griekenland . Alle andere stations bevinden zich ook in woonwijken, met uitzondering van Argonafton, dat naast de haven ligt.

Het verkeer in de haven is niet te verwaarlozen, met een gemiddelde aankomst/vertrek van ongeveer 8 schepen per dag , waarbij 80% van de schepen vracht is - op het moment van schrijven.

Een van de bekende problemen met lading kan de vervuiling door deeltjes uit uitlaatpijpen zijn, als gevolg van brandstof van lage kwaliteit . Maar kijkend naar het panorama vanwaar het station van Argonafton zich bevindt, is de afstand tot de lading voldoende groot om een constante bron van luchtvervuiling niet te rechtvaardigen. Je zou een paar keer kunnen verwachten dat de lucht in Argonafton meer vervuild is, vooral wanneer grote boten manoeuvreren, maar niet altijd. Dat zijn tenslotte maar 8 schepen die per dag manoeuvreren.


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

Tijdreeksgegevens van de afgelopen 30 dagen

Op basis van de informatie over de locatie van de stations zou je kunnen verwachten dat alle stations het eens zijn over vergelijkbare niveaus van luchtverontreiniging, met uitzondering van sporadische gebeurtenissen met hogere vervuiling voor Argonafton. Maar helaas is dit niet echt het geval, zoals blijkt uit de onderstaande tijdreeksgrafiek:

De tijdreeksgrafiek geeft duidelijk aan dat de gegevens voor Argonafton overschat lijken in vergelijking met andere stations. Op dezelfde manier lijken de gegevens voor Dimarxou ondergewaardeerd.

Een betere manier om dit probleem te benadrukken is door het dagelijkse 75e AQI-percentiel te visualiseren, uitgezet met behulp van het overeenkomstige AQI-kleurenbereik. De afwijking van Argonafton is duidelijk. Bovendien is het mogelijk om twee clusters te onderscheiden rond Riga-Feraiou+Kasthanaías en Volos EPA+Dimarxou.


--

Het kwantificeren van tijdreeksverschillen

Als het gaat om het vergelijken van gecorreleerde tijdreeksen, is het het beste om hun probabilistische verdelingen te vergelijken. De drie onderstaande grafieken vertegenwoordigen de dichtheidsverdeling, CDF (cumulatieve verdelingsfunctie) en QQ (met Volos EPA als referentie-CDF). Al deze drie grafieken zijn gebaseerd op de tijdreeksgegevens van de afgelopen 30 dagen, maar u kunt ook een specifiek tijdsbereik selecteren in de eerste tijdreeksgrafieken. Die drie grafieken worden dan bijgewerkt met de waarden uit het opgegeven tijdsbereik.

Als we met het blote oog naar de probabilistische verdeling kijken, is het duidelijk dat er een groot verschil is tussen Argonafton, Dimarxou en het referentie Volos EPA-station. Het is de moeite waard om op te merken dat er een “hobbel” is rond de AQI 150: de reden is dat het distributiediagram gebaseerd is op de AQI in plaats van op de ruwe concentratie, en het compactere [150.200] AQI-bereik (vergeleken met [100.150]) maakt de AQI dichter voor >150 vergeleken met <150.

Als het gaat om het kwantificeren van dit verschil, is het mogelijk om het concept van statistische afstand te gebruiken om de "goodness-of-fit" te kwantificeren. De meest bekende afstanden zijn de afstanden Kolmogorov-Smirnov, Wasserstein en Cramér-von Mises (voor een goede introductie over die afstanden, zie deze uitstekende uitleg ). De onderstaande tabel toont de afstanden op basis van de gegevens over 30 dagen (waarden worden bijgewerkt als u een tijdsbereik selecteert in de hoofdtijdreeksgrafiek).

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

Hoewel de afstand Kolmogorov-Smirnov de relatieve afstanden niet correct weergeeft (waarbij Dimarxou tot aan Argonafton wordt benadrukt), benadrukken de afstanden van zowel Wasserstein als Cramér-von Mises een duidelijk grotere afstand voor Argonafton. De waarden in de bovenstaande tabel zijn gebaseerd op de gegevens over 30 dagen. De 3 onderstaande grafieken zijn gebaseerd op het zevendaagse voortschrijdend gemiddelde van de afgelopen 30 dagen.

Die grafieken bevestigen dat, als je de Wasserstein- of Cramér-von-afstand gebruikt, de afstand tot het Argonafton-station en de Volos EPA voortdurend minstens tweemaal zo groot is als de afstand tot de andere stations.

Meteorologische gegevens correleren

Om de hypothese te bevestigen dat het Argonafton-station abnormale en overschatte concentratiemetingen produceert, moeten we naar de meteorologische gegevens kijken: de voorwaarde waaronder het Argonafton-station een hogere concentratie zou kunnen zien, is wanneer de wind uit het zuiden waait, dat wil zeggen waar de wind de dampen van de uitlaatpijpen van de vracht naar het station zou voeren.

De eerste stap is het controleren van de gemiddelde windrichting en -snelheid gedurende de afgelopen 30 dagen. De windgegevens worden verkregen van zowel het Volos Airport METAR- station als het Netatmo Tthiseos- weerstation. De twee windrozen vertegenwoordigen het aantal keren dat de wind in elke richting waait.

Uit beide windrozenplots blijkt dat de wind vooral uit het westen of oosten waait en veel minder uit het zuiden. Omdat er bergen zijn in het noordelijke deel van Volos, is er vrijwel geen wind vanuit het noorden.

Op basis van deze empirische bevestiging dat de wind minder uit het zuiden waait dan uit andere richtingen, kan niet worden afgeleid dat de vrachtuitlaatpijpen de oorzaak zijn van de hogere PM 2,5- concentraties voor het Argonafton-station. Deze hypothese wordt ook ontkracht door de correlatiegrafiek tussen drie van de stations en de windrichting van de luchthaven, waaruit blijkt dat er (voor geen van de stations) duidelijk bewijs is dat zuidelijke wind hoge concentraties impliceert.

Als laatste moeten we ook nagaan of het probleem met de Argonafton verband kan houden met de relatieve vochtigheid. Het probleem zou bijvoorbeeld te wijten kunnen zijn aan het feit dat een hogere luchtvochtigheid de deeltjesgrootte groter maakt en dus een hogere concentratie impliceert. Het onderstaande correlatiediagram bevestigt dat dit niet correct is, aangezien er geen duidelijk bewijs is dat de concentratie evenredig is aan de luchtvochtigheid.

Conclusie

In dit artikel hebben we gekeken naar de middelen om de gegevenskwaliteit voor realtime stations te kwantificeren en te kwalificeren. Ervan uitgaande dat er een vertrouwd referentiestation is, hebben we aangetoond dat kwantificering met behulp van de Cramér-von Mises- of Wasserstein-afstand problemen met stationsgegevens kan aangeven.

We hebben ook aangetoond dat afstand op zichzelf niet voldoende is, en dat, om preciezer te zijn, de stationscontext begrepen moet worden. zoals de locatie en meteorologische omstandigheden. Omdat de context echter niet iets is dat kan worden geautomatiseerd, bestaat de uiteindelijke oplossing die voor het WAQI-project wordt gebruikt uit het kwalificeren van een station waarvan de statistische afstand tot het referentiestation kleiner is dan 1/4. Dit zal de komende weken van kracht worden (zie aqicn.org/station/ voor de real-time stationskaart).

Dit artikel maakt deel uit van de serie en in het volgende artikel zullen we kijken naar manieren om een station te kwalificeren waar geen referentiestation beschikbaar is.


--

Volos promenade by night
Klik hier om alle FAQ-items te bekijken
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • Over de luchtkwaliteit- en vervuilingsmeting:

    Over de luchtkwaliteitsniveaus

    -Luchtkwaliteitsindex (AQI)-waardenNiveaus van gezondheidsproblemen
    0 - 50GoedLuchtkwaliteit wordt als bevredigend beschouwd en luchtverontreiniging vormt weinig of geen risico
    51 -100MatigLuchtkwaliteit is acceptabel; voor sommige verontreinigende stoffen kan er echter sprake zijn van een matige gezondheidsrisico voor een zeer klein aantal mensen dat ongewoon gevoelig is voor luchtvervuiling.
    101-150Ongezond voor gevoelige groepenLeden van gevoelige groepen kunnen gezondheidseffecten ervaren. Het grote publiek zal waarschijnlijk niet worden beïnvloed.
    151-200OngezondIedereen kan gezondheidseffecten ervaren; leden van gevoelige groepen kunnen ernstiger gezondheidseffecten ervaren
    201-300Zeer OngezondeGezondheidswaarschuwingen voor noodomstandigheden. De volledige populatie is mogelijk getroffen.
    300+gevaarlijkGezondheidswaarschuwing: iedereen kan ernstigere gezondheidseffecten ervaren

    Als u meer wilt weten over luchtkwaliteit en vervuiling, raadpleegt u het Wikipedia-onderwerp Luchtkwaliteit of de airnow-gids voor luchtkwaliteit en uw gezondheid .

    Voor zeer nuttige gezondheidsadviezen van de Beijing-arts Richard Saint Cyr MD, kijk op de blog www.myhealthbeijing.com .


    Gebruiksmelding: Alle gegevens van de luchtkwaliteit zijn niet-gevalideerd op het moment van publicatie en als gevolg van kwaliteitsborging kunnen deze gegevens op elk gewenst moment zonder voorafgaande kennisgeving worden gewijzigd. Het World Air Quality Index -project heeft alle redelijke vaardigheid en zorg besteed aan het samenstellen van de inhoud van deze informatie en onder geen enkele voorwaarde zal de World Air Quality Index projectteam of zijn agenten zijn aansprakelijk in contract, onrechtmatige daad of anderszins voor enig verlies, letsel of schade die direct of indirect voortvloeit uit de levering van deze gegevens.



    Settings


    Language Settings:


    Temperature unit:
    Celcius