Uso de distancias estadísticas para la validación de redes de sensores en tiempo real
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
Compartir: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/es/
Overlapping kernel densities,
(credits)

En 2008, cuando comenzó el proyecto World Air Quality, todas las estaciones de monitoreo de calidad del aire existentes se basaban en tecnología BAM y TOEM altamente profesional y costosa. Este tipo de estaciones siempre son mantenidas por operadores profesionales y altamente calificados, lo que garantiza que se pueda confiar en el rendimiento de esta estación.

12 años después, las estaciones BAM y TOEM todavía existen. Pero con el desarrollo de la tecnología de dispersión láser y los sensores de polvo de bajo costo, las estaciones BAM y TOEM ahora se ven superadas en número por inmensas y densas redes de sensores de bajo costo. Hoy en día existen muchísimas de estas redes, por nombrar algunas: urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, green air, etc.

Uno de los problemas fundamentales de la red de sensores de bajo costo es su confiabilidad: dado que muchos de esos sensores no reciben el mantenimiento adecuado (o no reciben ningún mantenimiento), la cantidad de sensores que producen mediciones completamente incorrectas no es despreciable. Además, la mayoría de la red no utiliza estaciones con sensores replicados (a diferencia de nuestra estación Gaia , que utiliza 3 sensores replicados), lo que hace aún más difícil saber cuándo falla un solo sensor.

En este artículo, analizaremos la red de sensores implementada en la maravillosa ciudad de Volos en Grecia y estudiaremos los medios para calificar y cuantificar la confiabilidad de la estación en tiempo real.


--

La maravillosa ciudad de Volos en Grecia

Volos (griego: Βόλος) es una ciudad portuaria costera. Con una población de 144.449 (2011), también es la sexta ciudad más poblada de Grecia. Es un importante centro industrial, mientras que su puerto sirve de puente entre Europa y Asia. Actualmente hay 5 estaciones en Volos: una de la EPA griega , que proporciona datos horarios de una estación BAM profesional, y 4 estaciones de bajo coste en tiempo real de la red lutf-daten :



La estación Volos EPA está ubicada en el edificio de la Administración Descentralizada de Tesalia y Grecia Central . Todas las demás estaciones también están ubicadas en zonas residenciales, a excepción de Argonafton, que se encuentra junto al puerto.

El tráfico en el puerto no es despreciable, con un promedio de alrededor de 8 llegadas/salidas de barcos por día , siendo el 80% de los barcos cargamentos, en el momento de escribir este artículo.

Uno de los problemas conocidos con las cargas puede ser la contaminación por partículas de los tubos de escape, debido al combustible de baja calidad . Pero mirando el panorama desde donde se encuentra la estación de Argonafton, la distancia hasta las cargas es lo suficientemente grande como para no justificar una fuente constante de contaminación del aire. Se podría esperar ver algunas ocasiones en las que el aire esté más contaminado en Argonafton, especialmente cuando los barcos grandes están maniobrando, pero no todo el tiempo. Después de todo, son sólo 8 barcos maniobrando al día.


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

Datos de series temporales de los últimos 30 días

Con base en la información de la ubicación de las estaciones, se podría esperar que todas las estaciones coincidan en niveles similares de contaminación del aire, con la excepción de eventos esporádicos de mayor contaminación para Argonafton. Pero bueno, desafortunadamente, este no es realmente el caso, como lo confirma el gráfico de series de tiempo a continuación:

El gráfico de la serie temporal indica claramente que los datos de Argonafton parecen sobreestimados en comparación con otras estaciones. Del mismo modo, los datos de Dimarxou parecen subestimados.

Una mejor forma de resaltar el problema es visualizar el percentil 75 del ICA diario, trazado utilizando la gama de colores del ICA correspondiente. La desviación de Argonafton es obvia. Además, es posible distinguir dos grupos centrados en Riga-Feraiou+Kasthanaías y Volos EPA+Dimarxou.


--

Cuantificar las diferencias de series temporales

Cuando se trata de comparar series temporales correlacionadas, lo mejor es comparar sus distribuciones probabilísticas. Los 3 gráficos siguientes representan la distribución de densidad, CDF (función de distribución acumulativa) y QQ (utilizando Volos EPA como CDF de referencia). Todos esos 3 gráficos se basan en datos de series de tiempo de los últimos 30 días, pero también puede seleccionar un rango de tiempo específico en los primeros gráficos de series de tiempo, y esos 3 gráficos se actualizarán utilizando los valores del rango de tiempo dado.

Si se observa la distribución probabilística a simple vista, resulta obvio que existe una gran diferencia entre Argonafton, Dimarxou y la estación de referencia de la EPA de Volos. Vale la pena señalar que hay un "alto" alrededor del AQI 150: la razón es que el gráfico de distribución se basa en el AQI en lugar de la concentración bruta, y el rango más compacto de [150,200] AQI (en comparación con [100,150]) hace el AQI es más denso para >150 en comparación con <150.

A la hora de cuantificar esta diferencia, es posible utilizar el concepto de distancia estadística para cuantificar la "bondad de ajuste". Las distancias más conocidas son las distancias Kolmogorov-Smirnov, Wasserstein y Cramér-von Mises (para una buena introducción sobre esas distancias, consulte estas excelentes explicaciones ). La siguiente tabla muestra las distancias basadas en los datos de 30 días (los valores se actualizarán si selecciona un rango de tiempo del gráfico principal de series temporales).

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

Si bien la distancia de Kolmogorov-Smirnov no captura correctamente las distancias relativas (destacando a Dimarxou hasta Argonafton), tanto las distancias de Wasserstein como Cramér-von Mises resaltan una distancia obviamente mayor para Argonafton. Los valores de la tabla anterior se basan en datos de 30 días. Los 3 gráficos siguientes se basan en el promedio móvil de 7 días de los últimos 30 días.

Esos gráficos confirman que utilizando la distancia de Wasserstein o Cramér-von, la distancia desde la estación de Argonafton y la EPA de Volos es constantemente al menos el doble de la distancia que las otras estaciones.

Correlación de datos meteorológicos

Para confirmar la hipótesis de que la estación Argonafton está produciendo lecturas de concentración anormales y sobreestimadas, necesitamos observar los datos meteorológicos: la condición bajo la cual la estación Argonafton podría ver una mayor concentración es cuando el viento sopla del sur, es decir, donde el viento llevaría los humos de los tubos de escape de carga hacia la estación.

El primer paso es comprobar la dirección y velocidad media del viento durante los últimos 30 días. Los datos del viento se obtienen tanto de la estación METAR del aeropuerto de Volos como de la estación meteorológica Netatmo Tthiseos . Las dos rosas de los vientos representan el número de veces que sopla el viento en cada dirección.

Ambos gráficos de rosas de los vientos muestran que el viento sopla principalmente del oeste o del este y mucho menos del sur. Como en la parte norte de Volos hay montañas, prácticamente no sopla viento del norte debajo.

Basándose en esta confirmación empírica de que el viento sopla menos del sur que en otras direcciones, no es posible deducir que los tubos de escape de carga sean la causa de las mayores concentraciones de PM 2,5 en la estación de Argonafton. Esta hipótesis también queda invalidada por el gráfico de correlación entre 3 de las estaciones y la dirección del viento del aeropuerto, que muestra que no hay evidencia clara (para ninguna de las estaciones) de que el viento del sur implique altas concentraciones.

Por último, también debemos comprobar si el problema con el Argonafton podría estar relacionado con la humedad relativa. El problema podría deberse, por ejemplo, a que una mayor humedad aumenta el tamaño de las partículas y, por tanto, implica una mayor concentración. El gráfico de correlación a continuación confirma que esto no es correcto, ya que no hay evidencia clara de que la concentración sea proporcional a la humedad.

Conclusión

En este artículo, hemos analizado los medios para cuantificar y calificar la calidad de los datos para estaciones en tiempo real. Suponiendo que exista una estación confiable de referencia, hemos demostrado que la cuantificación utilizando la distancia de Cramér-von Mises o Wasserstein puede indicar problemas con los datos de cualquier estación.

También hemos demostrado que la distancia en sí misma no es suficiente y que, para ser más precisos, se debe entender el contexto de la estación. como su ubicación y condiciones meteorológicas. Sin embargo, dado que el contexto no es algo que pueda automatizarse, la solución final utilizada para el proyecto WAQI consiste en calificar una estación cuya distancia estadística a la estación de referencia sea inferior a 1/4. Esto entrará en vigor durante las próximas semanas (consulte aqicn.org/station/ para ver el mapa de estaciones en tiempo real).

Este artículo es parte de la serie y en el próximo artículo analizaremos los medios para calificar una estación donde no hay una estación de referencia disponible.


--

Volos promenade by night
Haga clic aquí para ver todas las entradas de preguntas frecuentes
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • Acerca de la calidad del aire y la medición de la contaminación:

    Acerca de los niveles de calidad del aire

    ICACalidad del AireProteja su Salud
    0 - 50BuenaNo se anticipan impactos a la salud cuando la calidad del aire se encuentra en este intervalo.
    51 -100ModeradaLas personas extraordinariamente sensitivas deben considerar limitación de los esfuerzos físicos excesivos y prolongados al aire libre.
    101-150Dañina a la Salud de los Grupos SensitivosLos niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos físicos excesivos y prolongados al aire libre.
    151-200Dañina a la SaludLos niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos excesivos prolongados al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos y prolongados al aire libre.
    201-300Muy Dañina a la SaludLos niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar todos los esfuerzos excesivos al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos al aire libre.
    300+Arriesgado

    Para saber más sobre la calidad del aire y la contaminación, comprobar la tema Calidad wikipedia Air o Guía airnow a la calidad del aire y su salud .

    Para obtener consejos de salud muy útiles de Beijing doctor Richard Saint Cyr MD, compruebe www.myhealthbeijing.com blog.


    Aviso de uso: Todos los datos de Calidad del aire no están validados en el momento de la publicación, y debido a la garantía de calidad, estos datos pueden modificarse, sin previo aviso, en cualquier momento. El proyecto World Air Quality Index ha ejercido todas las habilidades y cuidados razonables para compilar el contenido de esta información y en ningún caso el World Air Quality Index o el equipo del proyecto será responsable en el contrato, agravio o de otra manera por cualquier pérdida, lesión o daño que surja directa o indirectamente del suministro de esta información.



    Configuración


    Configuración de idioma:


    Temperature unit:
    Celcius