Utilisation de distances statistiques pour la validation des réseaux de capteurs en temps réel
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
Partager: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/fr/
Overlapping kernel densities,
(credits)

En 2008, lorsque le projet World Air Quality a démarré, toutes les stations de surveillance de la qualité de l'air existantes étaient basées sur des technologies BAM et TOEM hautement professionnelles et coûteuses. Ce type de stations est toujours entretenu par des opérateurs professionnels et hautement qualifiés - ce qui garantit que le rendement de cette station est fiable.

12 ans plus tard, les stations BAM et TOEM existent toujours. Mais avec le développement de la technologie de diffusion laser et des capteurs de poussière à faible coût, les stations BAM et TOEM sont désormais dépassées en nombre par d'immenses et denses réseaux de capteurs à faible coût. De nos jours, il existe un très grand nombre de ces réseaux, pour n'en citer que quelques-uns : urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, green air, etc.

L'un des problèmes fondamentaux des réseaux de capteurs à faible coût est leur fiabilité : étant donné que bon nombre de ces capteurs ne sont pas correctement entretenus (ou pas du tout), le nombre de capteurs produisant des mesures complètement fausses n'est pas négligeable. De plus, la plupart du réseau n'utilise pas de stations avec des capteurs répliqués (contrairement à notre station Gaia , qui utilise 3 capteurs répliqués), ce qui rend encore plus difficile de savoir quand un seul capteur est défaillant.

Dans cet article, nous examinerons le réseau de capteurs déployés dans la merveilleuse ville de Volos en Grèce, et étudierons les moyens de qualifier et quantifier la fiabilité des stations en temps réel.


--

La merveilleuse ville de Volos en Grèce

Volos (grec : Βόλος) est une ville portuaire côtière. Avec une population de 144 449 habitants (2011), c'est également la sixième ville la plus peuplée de Grèce. C'est un centre industriel important, tandis que son port constitue un pont entre l'Europe et l'Asie. Il existe actuellement 5 stations à Volos : une de l' EPA grecque , fournissant des données horaires provenant d'une station professionnelle BAM, et 4 stations en temps réel à faible coût du réseau lutf-daten :



La station EPA de Volos est située dans le bâtiment de l' Administration décentralisée de Thessalie et de la Grèce centrale . Toutes les autres gares sont également situées dans des zones résidentielles, à l'exception d'Argonafton qui est située à côté du port.

Le trafic dans le port n'est pas négligeable, avec une moyenne d'environ 8 navires arrivées/départs par jour , dont 80% sont des cargos - au moment de la rédaction de cet article.

L'un des problèmes connus liés aux cargaisons peut être la pollution par les particules provenant des tuyaux d'échappement, due à un carburant de mauvaise qualité . Mais vu le panorama depuis lequel se trouve la station Argonafton, la distance jusqu'aux cargaisons est suffisamment grande pour ne pas justifier une source constante de pollution atmosphérique. On pourrait s'attendre à quelques moments où l'air est plus pollué à Argonafton, surtout lorsque de gros bateaux manœuvrent, mais pas tout le temps. Après tout, cela ne représente que 8 navires manœuvrant par jour.


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

Données de séries chronologiques des 30 derniers jours

Sur la base des informations provenant de l'emplacement des stations, on pourrait s'attendre à ce que toutes les stations s'accordent sur des niveaux similaires de pollution atmosphérique, à l'exception d'événements sporadiques de pollution plus élevée pour Argonafton. Mais malheureusement, ce n’est pas vraiment le cas, comme le confirme le graphique de la série chronologique ci-dessous :

Le graphique de la série chronologique indique clairement que les données d' Argonafton semblent surestimées par rapport à d'autres stations. De même, les données pour Dimarxou semblent sous-estimées.

Une meilleure façon de mettre en évidence le problème est de visualiser le 75e percentile quotidien de l'AQI, tracé à l'aide de la gamme de couleurs AQI correspondante. L’écart par rapport à Argonafton est évident. Par ailleurs, il est possible de distinguer deux clusters centrés autour de Riga-Feraiou+Kasthanaías et Volos EPA+Dimarxou.


--

Quantifier les différences de séries chronologiques

Lorsqu’il s’agit de comparer des séries chronologiques corrélées, le mieux est de comparer leurs distributions probabilistes. Les 3 graphiques ci-dessous représentent la distribution de densité, CDF (fonction de distribution cumulative) et QQ (en utilisant Volos EPA comme CDF de référence). Tous ces 3 graphiques sont basés sur les données de séries chronologiques des 30 derniers jours, mais vous pouvez également sélectionner une plage de temps spécifique dans les premiers graphiques de séries chronologiques, et ces 3 graphiques seront mis à jour en utilisant les valeurs de la plage de temps donnée.

En regardant la distribution probabiliste à l’œil nu, il est évident qu’il existe une grande différence entre Argonafton, Dimarxou et la station EPA de référence de Volos. Il convient de noter qu'il y a une « bosse » autour de l'AQI 150 : la raison en est que le graphique de distribution est basé sur l'AQI plutôt que sur la concentration brute, et que la plage AQI plus compacte de [150 200] (par rapport à [100 150]) fait que l'IQA est plus dense pour >150 que pour <150.

Lorsqu'il s'agit de quantifier cette différence, il est possible d'utiliser le concept de distance statistique pour quantifier la « qualité de l'ajustement ». Les distances les plus connues sont les distances de Kolmogorov-Smirnov, Wasserstein et Cramér-von Mises (pour une bonne introduction à ces distances, reportez-vous à ces excellentes explications ). Le tableau ci-dessous montre les distances basées sur les données de 30 jours (les valeurs seront mises à jour si vous sélectionnez une plage horaire dans le graphique principal de la série chronologique).

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

Alors que la distance Kolmogorov-Smirnov ne capture pas correctement les distances relatives (mettant en évidence Dimarxou jusqu'à Argonafton), les distances Wasserstein et Cramér-von Mises mettent en évidence une distance évidemment plus grande pour Argonafton. Les valeurs du tableau ci-dessus sont basées sur les données de 30 jours. Les 3 graphiques ci-dessous sont basés sur la moyenne mobile sur 7 jours des 30 derniers jours.

Ces graphiques confirment qu'en utilisant la distance de Wasserstein ou de Cramér-von, la distance entre la station Argonafton et l'EPA de Volos est constamment au moins deux fois supérieure à celle des autres stations.

Corrélation des données météorologiques

Afin de confirmer l'hypothèse selon laquelle la station Argonafton produit des valeurs de concentration anormales et surestimées, nous devons examiner les données météorologiques : La condition dans laquelle la station Argonafton pourrait voir une concentration plus élevée est lorsque le vent souffle du sud, c'est-à-dire là où le vent transporterait les fumées des tuyaux d'échappement de la cargaison vers la gare.

La première étape consiste à vérifier la direction et la vitesse moyennes du vent au cours des 30 derniers jours. Les données sur le vent sont obtenues à la fois par la station METAR de l'aéroport de Volos et par la station météo Netatmo Tthiseos . Les deux roses des vents représentent le nombre de fois que le vent souffle dans chaque direction.

Les deux tracés des roses des vents montrent que le vent souffle principalement de l’ouest ou de l’est et beaucoup moins du sud. Comme il y a des montagnes dans la partie nord de Volos, il n'y a pratiquement aucun vent du nord en dessous.

Sur la base de cette confirmation empirique selon laquelle le vent souffle moins du sud que d'une autre direction, il n'est pas possible de déduire que les tuyaux d'échappement des marchandises sont à l'origine des concentrations plus élevées de PM 2,5 à la station d'Argonafton. Cette hypothèse est également invalidée par le graphique de corrélation entre 3 des stations et la direction du vent de l'aéroport, qui montre qu'il n'y a aucune preuve claire (pour aucune des stations) que le vent du sud implique de fortes concentrations.

Enfin, il faudra également vérifier si le problème de l’Argonafton pourrait être lié à l’humidité relative. Le problème pourrait, par exemple, être dû à une humidité plus élevée rendant la taille des particules plus grande et impliquant ainsi une concentration plus élevée. Le graphique de corrélation ci-dessous confirme que cela n'est pas correct, car il n'existe aucune preuve claire que la concentration est proportionnelle à l'humidité.

Conclusion

Dans cet article, nous avons examiné les moyens de quantifier et de qualifier la qualité des données des stations en temps réel. En supposant qu'il existe une station de référence fiable, nous avons montré que la quantification à l'aide de la distance Cramér-von Mises ou de Wasserstein peut indiquer des problèmes avec n'importe quelle donnée de station.

Nous avons également montré que la distance en elle-même ne suffit pas, et que pour être plus précis, il faut comprendre le contexte de la gare. comme son emplacement et les conditions météorologiques. Cependant, le contexte n'étant pas automatisable, la solution finale utilisée pour le projet WAQI consiste à qualifier une station dont les distances statistiques à la station de référence sont inférieures à 1/4. Cela sera mis en œuvre dans les semaines à venir (voir aqicn.org/station/ pour la carte des stations en temps réel.

Cet article fait partie de la série, et dans le prochain article, nous examinerons les moyens de qualifier une station lorsqu'aucune station de référence n'est disponible.


--

Volos promenade by night
Cliquez ici pour voir toutes les entrées de la FAQ
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • À propos de la qualité de l'air et des mesures de la pollution atmosphérique :

    À propos des niveaux de qualité de l'air

    IQANiveau de pollution de l'air Impact sur la santé
    0 - 50BonLa qualité de l'air est jugée satisfaisante, et la pollution de l'air pose peu ou pas de risque.
    51 -100ModéréLa qualité de l'air est acceptable. Cependant, pour certains polluants, il peut y avoir un risque sur la santé pour un très petit nombre de personnes inhabituellement sensibles à la pollution atmosphérique.
    101-150Mauvais pour les groupes sensiblesLa qualité de l'air est acceptable; Cependant, pour certains polluants, il peut y avoir un problème de santé modérée pour un très petit nombre de personnes qui sont particulièrement sensibles à la pollution de l'air.
    151-200MauvaisTout le monde peut commencer à ressentir des effets sur la santé; les membres des groupes sensibles peuvent ressentir des effets de santé plus graves.
    201-300Très mauvaisAvertissements de santé de conditions d'urgence. Toute la population est plus susceptible d'être affecté.
    300+DangereuxAlerte de santé: tout le monde peut ressentir des effets de santé plus graves.

    Pour en savoir plus sur la qualité de l'air, consultez le sujet Qualité de l'air sur Wikipedia ou le guide AirNow de la qualité de l'air et de votre santé .

    Pour des conseils de santé très utiles du Dr. Richard Saint Cyr, consultez le blog myhealthbeijing.com.


    Notice d'utilisation: Toutes les données sur la qualité de l'air ne sont pas validées au moment de la publication et, pour des raisons d'assurance de la qualité, ces données peuvent être modifiées à tout moment et sans préavis. Le projet Indice de la qualité de l'air dans le monde a exercé toutes les compétences et l'attention réalisables dans la compilation du contenu de ces informations. Indice de la qualité de l’air dans le monde , l’équipe de projet ou ses agents ne peuvent être tenus responsables, contractuellement, judiciairement ou autrement, de toute perte, blessure ou préjudice résultant directement ou indirectement de la fourniture de ces données.



    Paramètres


    Choix de la langue :


    Temperature unit:
    Celcius