Использование статистических расстояний для проверки сенсорных сетей в реальном времени
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
Делиться: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/ru/
Overlapping kernel densities,
(credits)

Еще в 2008 году, когда стартовал проект World Air Quality, все существующие станции мониторинга качества воздуха были основаны на высокопрофессиональных и дорогостоящих технологиях BAM и TOEM. Такие станции всегда обслуживаются профессиональными и высококвалифицированными операторами – и это гарантирует, что продукции этой станции можно доверять.

12 лет спустя станции БАМ и ТОЭМ все еще существуют. Но с развитием технологии лазерного рассеяния и недорогих датчиков пыли станции BAM и TOEM теперь уступают по численности огромным и плотным недорогим сенсорным сетям. В настоящее время таких сетей очень много – и это лишь некоторые из них: urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, green air и т. д.

Одной из фундаментальных проблем недорогих сенсорных сетей является их надежность: поскольку многие из этих датчиков не обслуживаются должным образом (или не обслуживаются вообще), количество датчиков, дающих совершенно неправильные измерения, немаловажно. Более того, большая часть сети не использует станции с дублированными датчиками (в отличие от нашей станции Gaia , которая использует 3 дублированных датчика), что еще больше затрудняет определение того, когда один датчик выходит из строя.

В этой статье мы рассмотрим сенсорную сеть, развернутую в чудесном городе Волос в Греции, и изучим средства для оценки и количественной оценки надежности станции в режиме реального времени.


--

Чудесный город Волос в Греции

Волос (греч. Βόλος) — прибрежный портовый город. С населением 144 449 человек (2011 г.) это также шестой по численности населения город Греции. Это важный промышленный центр, а его порт служит мостом между Европой и Азией. В настоящее время в Волосе 5 станций: одна от греческого EPA , предоставляющая почасовые данные от профессиональной станции BAM, и 4 недорогие станции реального времени от сети lutf-daten :



Станция EPA Волос расположена в здании Децентрализованной администрации Фессалии и Центральной Греции . Все остальные станции также расположены в жилых районах, за исключением «Аргонафтона», расположенного рядом с портом.

Движение в порту немаловажно: на момент написания статьи в среднем прибывает/отправляется около 8 судов в день , причем 80% судов являются грузовыми.

Одной из известных проблем с грузами может быть загрязнение частицами из выхлопных труб из-за некачественного топлива . Но если посмотреть на панораму , откуда расположена станция «Аргонафтон», расстояние до грузов достаточно большое, чтобы не оправдать наличие постоянного источника загрязнения воздуха. Можно было ожидать, что несколько раз воздух в Аргонафтоне будет более загрязнен, особенно когда маневрируют большие лодки, но не всегда. Ведь это всего лишь 8 кораблей, маневрирующих в день.


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

Данные временных рядов за последние 30 дней

Основываясь на информации о местоположении станций, можно было бы ожидать, что все станции согласны с одинаковыми уровнями загрязнения воздуха, за исключением спорадических случаев более высокого загрязнения для Аргонафтона. Но, к сожалению, на самом деле это не так, что подтверждает график временных рядов ниже:

График временных рядов ясно показывает, что данные по Аргонафтону кажутся завышенными по сравнению с другими станциями. Точно так же данные по Димарксу кажутся заниженными.

Лучше всего подчеркнуть проблему, визуализируя ежедневный 75-й процентиль AQI, построенный с использованием соответствующего цветового диапазона AQI. Отклонение от Аргонафтона очевидно. Более того, можно выделить два кластера, сосредоточенных вокруг Риги-Фераиу+Кастанайяс и Волос EPA+Димарксу.


--

Количественная оценка различий временных рядов

Когда дело доходит до сравнения коррелированных временных рядов, лучше всего сравнить их вероятностные распределения. На трех графиках ниже показано распределение плотности, CDF (кумулятивная функция распределения) и QQ (с использованием Volos EPA в качестве эталонного CDF). Все эти три графика основаны на данных временных рядов за последние 30 дней, но вы также можете выбрать определенный временной диапазон на первых графиках временных рядов, и эти три графика будут обновлены с использованием значений из заданного временного диапазона.

Глядя на вероятностное распределение невооруженным глазом, очевидно, что существует большая разница между Аргонафтоном, Димарксу и эталонной станцией Агентства по охране окружающей среды Волос. Стоит отметить, что вокруг AQI 150 наблюдается «выбух»: причина в том, что график распределения основан на AQI, а не на исходной концентрации, и более компактный диапазон [150,200] AQI (по сравнению с [100,150]) делает AQI более плотный при >150 по сравнению с <150.

Когда дело доходит до количественной оценки этой разницы, можно использовать концепцию статистического расстояния для количественной оценки «степени соответствия». Наиболее известными расстояниями являются расстояния Колмогорова-Смирнова, Вассерштейна и Крамера-фон Мизеса (хорошее представление об этих расстояниях можно найти в этих превосходных объяснениях ). В таблице ниже показаны расстояния на основе данных за 30 дней (значения будут обновлены, если вы выберете временной диапазон на основном графике временных рядов).

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

Хотя расстояние Колмогорова-Смирнова неправильно отражает относительные расстояния (подчеркивается Димарксу до Аргонафтона), расстояния Вассерштейна и Крамера-фон Мизеса указывают на очевидно большее расстояние для Аргонафтона. Значения в приведенной выше таблице основаны на данных за 30 дней. Три графика ниже основаны на 7-дневной скользящей средней за последние 30 дней.

Эти графики подтверждают, что при использовании расстояния Вассерштейна или Крамера-фона расстояние от станции Аргонафтон и Агентства по охране окружающей среды Волоса постоянно как минимум в два раза больше расстояния, чем от других станций.

Корреляция метеорологических данных

Чтобы подтвердить гипотезу о том, что станция «Аргонафтон» выдает аномальные и завышенные значения концентрации, нам необходимо взглянуть на метеорологические данные: условие, при котором станция «Аргонафтон» может видеть более высокую концентрацию, — это когда ветер дует с юга. то есть туда, где ветер будет переносить дымы из выхлопных труб груза в сторону станции.

Первый шаг — проверить среднее направление и скорость ветра за последние 30 дней. Данные о ветре получаются как со станции METAR аэропорта Волос, так и с метеостанции Netatmo Tthiseos . Две розы ветров обозначают количество раз, когда ветер дует в каждом направлении.

Оба графика роз ветров показывают, что ветер в основном дует с запада или востока и гораздо реже с юга. Поскольку в северной части Волоса находятся горы, внизу с севера ветра практически нет.

Основываясь на этом эмпирическом подтверждении того, что ветер дует с юга меньше, чем с другого направления, невозможно сделать вывод, что выхлопные трубы груза являются причиной более высоких концентраций PM 2,5 на станции Аргонафтон. Эта гипотеза также опровергается графиком корреляции между тремя станциями и направлением ветра в аэропорту, который показывает, что нет четких доказательств (ни для одной из станций), что южный ветер предполагает высокие концентрации.

Наконец, нам также необходимо проверить, может ли проблема с «Аргонафтоном» быть связана с относительной влажностью. Проблема может заключаться, например, в том, что более высокая влажность приводит к увеличению размера частиц и, следовательно, к более высокой концентрации. Приведенный ниже график корреляции подтверждает, что это неверно, поскольку нет четких доказательств того, что концентрация пропорциональна влажности.

Заключение

В этой статье мы рассмотрели способы количественной оценки и оценки качества данных для станций реального времени. Предполагая, что существует эталонная доверенная станция, мы показали, что количественная оценка с использованием расстояния Крамера-фон Мизеса или Вассерштейна может указать на проблемы с данными любой станции.

Мы также показали, что расстояния самого по себе недостаточно и что, если быть более точным, следует понимать контекст станции. таких как его местоположение и метеорологические условия. Однако, поскольку контекст не является чем-то, что можно автоматизировать, окончательное решение, используемое для проекта WAQI, состоит в квалификации станции, статистическое расстояние которой до эталонной станции составляет менее 1/4. Это вступит в силу в ближайшие недели (карту станций в реальном времени см. на сайте aqicn.org/station/ ).

Эта статья является частью этой серии, и в следующей статье мы рассмотрим средства квалификации станций там, где нет опорной станции.


--

Volos promenade by night
Нажмите здесь, чтобы просмотреть все часто задаваемые вопросы
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • О качестве воздуха и измерениях загрязнения:

    О уровнях качества воздуха

    -Индекс качества воздуха (ИКВ = AQI) ЗначенияУровни концерна здравоохранения
    0 - 50хорошоКачество воздуха считается удовлетворительным, и загрязнение воздуха представляется незначительным в пределах нормы.
    51 -100удовлетворительноеКачество воздуха является приемлемым; однако некоторые загрязнители могут представлять опасность для людей, являющихся особо чувствительным к загрязнению воздуха.
    101-150Нездоровый для чувствительных группМожет оказывать эффект на особо чувствительную группу лиц. На среднего представителя не оказывает видимого воздействия.
    151-200нездоровыйКаждый может начать испытывать последствия для своего здоровья; особо чувствительные люди могут испытывать более серьезные последствия.
    201-300Очень НездоровыйОпасность для здоровья от чрезвычайных условий. Это отразится, вероятно, на всем населении.
    300+опасныйОпасность для здоровья: каждый человек может испытывать более серьезные последствия для здоровья

    To know more about Air Quality and Pollution, check the wikipedia Air Quality topic or the airnow guide to Air Quality and Your Health.

    For very useful health advices of Beijing Doctor Richard Saint Cyr MD, check www.myhealthbeijing.com blog.


    Уведомление об использовании: Все данные о качестве воздуха не подтверждены на момент публикации, и ввиду гарантии качества эти данные могут быть изменены в любое время без предварительного уведомления. Всемирный индекс качества воздуха реализовал все разумные навыки и заботу в составлении содержания этой информации и ни при каких обстоятельствах проектная группа World Air Quality Index или ее агенты не несут ответственность по контракту, деликту или иным образом за любые убытки, травмы или ущерб, возникшие прямо или косвенно от предоставления этих данных.



    Настройки


    Настройка языка:


    Temperature unit:
    Celcius