(credits)
Еще в 2008 году, когда стартовал проект World Air Quality, все существующие станции мониторинга качества воздуха были основаны на высокопрофессиональных и дорогостоящих технологиях BAM и TOEM. Такие станции всегда обслуживаются профессиональными и высококвалифицированными операторами – и это гарантирует, что продукции этой станции можно доверять.
12 лет спустя станции БАМ и ТОЭМ все еще существуют. Но с развитием технологии лазерного рассеяния и недорогих датчиков пыли станции BAM и TOEM теперь уступают по численности огромным и плотным недорогим сенсорным сетям. В настоящее время таких сетей очень много – и это лишь некоторые из них: urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, green air и т. д.
Одной из фундаментальных проблем недорогих сенсорных сетей является их надежность: поскольку многие из этих датчиков не обслуживаются должным образом (или не обслуживаются вообще), количество датчиков, дающих совершенно неправильные измерения, немаловажно. Более того, большая часть сети не использует станции с дублированными датчиками (в отличие от нашей станции Gaia , которая использует 3 дублированных датчика), что еще больше затрудняет определение того, когда один датчик выходит из строя.
В этой статье мы рассмотрим сенсорную сеть, развернутую в чудесном городе Волос в Греции, и изучим средства для оценки и количественной оценки надежности станции в режиме реального времени.
--
Чудесный город Волос в Греции
Волос (греч. Βόλος) — прибрежный портовый город. С населением 144 449 человек (2011 г.) это также шестой по численности населения город Греции. Это важный промышленный центр, а его порт служит мостом между Европой и Азией. В настоящее время в Волосе 5 станций: одна от греческого EPA , предоставляющая почасовые данные от профессиональной станции BAM, и 4 недорогие станции реального времени от сети lutf-daten :
Станция EPA Волос расположена в здании Децентрализованной администрации Фессалии и Центральной Греции . Все остальные станции также расположены в жилых районах, за исключением «Аргонафтона», расположенного рядом с портом.
Движение в порту немаловажно: на момент написания статьи в среднем прибывает/отправляется около 8 судов в день , причем 80% судов являются грузовыми.
Одной из известных проблем с грузами может быть загрязнение частицами из выхлопных труб из-за некачественного топлива . Но если посмотреть на панораму , откуда расположена станция «Аргонафтон», расстояние до грузов достаточно большое, чтобы не оправдать наличие постоянного источника загрязнения воздуха. Можно было ожидать, что несколько раз воздух в Аргонафтоне будет более загрязнен, особенно когда маневрируют большие лодки, но не всегда. Ведь это всего лишь 8 кораблей, маневрирующих в день.
--
Данные временных рядов за последние 30 дней
Основываясь на информации о местоположении станций, можно было бы ожидать, что все станции согласны с одинаковыми уровнями загрязнения воздуха, за исключением спорадических случаев более высокого загрязнения для Аргонафтона. Но, к сожалению, на самом деле это не так, что подтверждает график временных рядов ниже:
График временных рядов ясно показывает, что данные по Аргонафтону кажутся завышенными по сравнению с другими станциями. Точно так же данные по Димарксу кажутся заниженными.
Лучше всего подчеркнуть проблему, визуализируя ежедневный 75-й процентиль AQI, построенный с использованием соответствующего цветового диапазона AQI. Отклонение от Аргонафтона очевидно. Более того, можно выделить два кластера, сосредоточенных вокруг Риги-Фераиу+Кастанайяс и Волос EPA+Димарксу.
--
Количественная оценка различий временных рядов
Когда дело доходит до сравнения коррелированных временных рядов, лучше всего сравнить их вероятностные распределения. На трех графиках ниже показано распределение плотности, CDF (кумулятивная функция распределения) и QQ (с использованием Volos EPA в качестве эталонного CDF). Все эти три графика основаны на данных временных рядов за последние 30 дней, но вы также можете выбрать определенный временной диапазон на первых графиках временных рядов, и эти три графика будут обновлены с использованием значений из заданного временного диапазона.
Глядя на вероятностное распределение невооруженным глазом, очевидно, что существует большая разница между Аргонафтоном, Димарксу и эталонной станцией Агентства по охране окружающей среды Волос. Стоит отметить, что вокруг AQI 150 наблюдается «выбух»: причина в том, что график распределения основан на AQI, а не на исходной концентрации, и более компактный диапазон [150,200] AQI (по сравнению с [100,150]) делает AQI более плотный при >150 по сравнению с <150.
Когда дело доходит до количественной оценки этой разницы, можно использовать концепцию статистического расстояния для количественной оценки «степени соответствия». Наиболее известными расстояниями являются расстояния Колмогорова-Смирнова, Вассерштейна и Крамера-фон Мизеса (хорошее представление об этих расстояниях можно найти в этих превосходных объяснениях ). В таблице ниже показаны расстояния на основе данных за 30 дней (значения будут обновлены, если вы выберете временной диапазон на основном графике временных рядов).
Station | | | |
---|
Хотя расстояние Колмогорова-Смирнова неправильно отражает относительные расстояния (подчеркивается Димарксу до Аргонафтона), расстояния Вассерштейна и Крамера-фон Мизеса указывают на очевидно большее расстояние для Аргонафтона. Значения в приведенной выше таблице основаны на данных за 30 дней. Три графика ниже основаны на 7-дневной скользящей средней за последние 30 дней.
Эти графики подтверждают, что при использовании расстояния Вассерштейна или Крамера-фона расстояние от станции Аргонафтон и Агентства по охране окружающей среды Волоса постоянно как минимум в два раза больше расстояния, чем от других станций.
Корреляция метеорологических данных
Чтобы подтвердить гипотезу о том, что станция «Аргонафтон» выдает аномальные и завышенные значения концентрации, нам необходимо взглянуть на метеорологические данные: условие, при котором станция «Аргонафтон» может видеть более высокую концентрацию, — это когда ветер дует с юга. то есть туда, где ветер будет переносить дымы из выхлопных труб груза в сторону станции.
Первый шаг — проверить среднее направление и скорость ветра за последние 30 дней. Данные о ветре получаются как со станции METAR аэропорта Волос, так и с метеостанции Netatmo Tthiseos . Две розы ветров обозначают количество раз, когда ветер дует в каждом направлении.
Оба графика роз ветров показывают, что ветер в основном дует с запада или востока и гораздо реже с юга. Поскольку в северной части Волоса находятся горы, внизу с севера ветра практически нет.
Основываясь на этом эмпирическом подтверждении того, что ветер дует с юга меньше, чем с другого направления, невозможно сделать вывод, что выхлопные трубы груза являются причиной более высоких концентраций PM 2,5 на станции Аргонафтон. Эта гипотеза также опровергается графиком корреляции между тремя станциями и направлением ветра в аэропорту, который показывает, что нет четких доказательств (ни для одной из станций), что южный ветер предполагает высокие концентрации.
Наконец, нам также необходимо проверить, может ли проблема с «Аргонафтоном» быть связана с относительной влажностью. Проблема может заключаться, например, в том, что более высокая влажность приводит к увеличению размера частиц и, следовательно, к более высокой концентрации. Приведенный ниже график корреляции подтверждает, что это неверно, поскольку нет четких доказательств того, что концентрация пропорциональна влажности.
Заключение
В этой статье мы рассмотрели способы количественной оценки и оценки качества данных для станций реального времени. Предполагая, что существует эталонная доверенная станция, мы показали, что количественная оценка с использованием расстояния Крамера-фон Мизеса или Вассерштейна может указать на проблемы с данными любой станции.
Мы также показали, что расстояния самого по себе недостаточно и что, если быть более точным, следует понимать контекст станции. таких как его местоположение и метеорологические условия. Однако, поскольку контекст не является чем-то, что можно автоматизировать, окончательное решение, используемое для проекта WAQI, состоит в квалификации станции, статистическое расстояние которой до эталонной станции составляет менее 1/4. Это вступит в силу в ближайшие недели (карту станций в реальном времени см. на сайте aqicn.org/station/ ).
Эта статья является частью этой серии, и в следующей статье мы рассмотрим средства квалификации станций там, где нет опорной станции.
--