使用统计距离进行实时传感器网络验证
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
分享: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/cn/
Overlapping kernel densities,
(credits)

早在2008年,当世界空气质量项目启动时,所有现有的空气质量监测站都基于高度专业且昂贵的BAM和TOEM技术。此类工作站始终由专业且高素质的操作员维护 - 这确保了该工作站的输出值得信赖。

12 年后,BAM 和 TOEM 站仍然存在。但随着激光散射技术和低成本灰尘传感器的发展,BAM 和 TOEM 站的数量现在已经被巨大而密集的低成本传感器网络所取代。如今,此类网络非常多,仅举几例:urad、luft-daten、airqo、airbg、opensense、yakkaw、econet、airkaz、ccdc、ambente、green air 等。

低成本传感器网络的基本问题之一是其可靠性:由于许多传感器没有得到适当维护(或根本没有维护),因此产生完全错误测量的传感器数量不容忽视。此外,大多数网络不使用带有复制传感器的站(与我们的Gaia站不同,它使用 3 个复制传感器),这使得了解单个传感器何时发生故障变得更加困难。

在本文中,我们将研究部署在希腊美丽城市沃洛斯的传感器网络,并研究实时鉴定和量化站点可靠性的方法。


--

希腊美丽的沃洛斯市

沃洛斯(希腊语:Βόλος)是一个沿海港口城市。它的人口为 144,449 人(2011 年),也是希腊人口第六大城市。它是重要的工业中心,其港口是欧洲和亚洲之间的桥梁。沃洛斯目前有 5 个监测站:1 个来自希腊 EPA ,由专业的 BAM 监测站提供每小时数据,以及 4 个来自lutf-daten网络的低成本实时监测站:



沃洛斯 EPA 站位于色萨利和希腊中部权力下放管理局大楼内。除靠近港口的 Argonafton 站外,所有其他站也都位于住宅区。

港口的交通量不容忽视,截至撰写本文时,平均每天约有 8 艘船舶抵达/出发,其中 80% 的船舶是货物。

货物的已知问题之一可能是由于劣质燃料造成的排气管颗粒污染。但从阿戈纳夫顿站所在地的全景来看,距货物的距离足够远,不足以证明持续的空气污染源是合理的。人们可能会在阿尔戈纳夫顿的空气污染较严重时看到几次,特别是在大型船只航行时,但并非总是如此。毕竟,每天只有 8 艘船在航行。


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

过去30天的时间序列数据

根据监测站位置信息,可以预期所有监测站的空气污染水平都相似,但阿戈纳夫顿 (Argonafton) 偶发的污染较高的事件除外。但不幸的是,事实并非如此,正如下面的时间序列图所证实的那样:

时间序列图清楚地表明,与其他站相比, Argonafton的数据似乎被高估了。同样, Dimarxou的数据似乎也被低估了。

更好地强调这个问题的方法是可视化每日第 75 个 AQI 百分位,使用相应的 AQI 颜色范围绘制。与 Argonafton 的偏差是显而易见的。此外,可以区分以 Riga-Feraiou+Kasthanaías 和 Volos EPA+Dimarxou 为中心的两个集群。


--

量化时间序列差异

在比较相关时间序列时,最好是比较它们的概率分布。下面的 3 个图分别代表密度分布、CDF(累积分布函数)和 QQ(使用 Volos EPA 作为参考 CDF)。所有这 3 个图表均基于过去 30 天的时间序列数据,但您也可以在第一个时间序列图表中选择特定时间范围,这 3 个图表将使用给定时间范围内的值进行更新。

Looking at the probabilistic distribution with a naked eye, it is obvious that there is a big difference between Argonafton, Dimarxou and the reference Volos EPA station. It is worth noticing that there is a "bump" around AQI 150: The reason is that the distribution plot is based on the AQI rather than the raw concentration, and the more compact [150,200] AQI range (compared to [100,150]) make the AQI denser for >150 compared to <150.

在量化这种差异时,可以使用统计距离的概念来量化“拟合优度”。最著名的距离是 Kolmogorov-Smirnov、Wasserstein 和 Cramér-von Mises 距离(有关这些距离的详细介绍,请参阅这篇精彩的解释)。下表显示了基于 30 天数据的距离(如果您从主时间序列图中选择时间范围,则值将更新)。

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

虽然 Kolmogorov-Smirnov 距离不能正确捕获相对距离(突出显示 Dimarxou 远至 Argonafton),但 Wasserstein 和 Cramér-von Mises 距离都突出显示 Argonafton 的距离明显更大。上表中的值基于 30 天的数据。下面的 3 个图表基于过去 30 天的 7 天移动平均线。

这些图表确实证实,无论使用 Wasserstein 距离还是 Cramér-von 距离,Argonafton 站和沃洛斯 EPA 之间的距离始终至少是其他站距离的两倍。

关联气象数据

为了证实Argonafton站产生异常且高估的浓度读数的假设,我们需要查看气象数据:Argonafton站出现较高浓度的条件是当风从南边吹来时,即风将货物排气管的烟雾吹向车站的地方。

第一步是检查过去 30 天内的平均风向和风速。风数据来自沃洛斯机场 METAR站和Netatmo Tthiseos气象站。两个风玫瑰图代表风向每个方向吹的次数。

两张风玫瑰图均显示风主要从西风或东风吹来,南风则较少。由于沃洛斯北部有山脉,因此下面基本没有北风。

根据这一经验证实,从南面吹来的风比从其他方向吹来的风要少,不可能推断出货物排气管是造成 Argonafton 站 PM 2.5浓度较高的原因。 3 个站点与机场风向之间的相关图也证明了这一假设无效,该图表明没有明确的证据(对于任何站点)表明南风意味着高浓度。

最后,我们还需要检查 Argonafton 的问题是否与相对湿度有关。例如,问题可能是由于较高的湿度导致颗粒尺寸较大,从而意味着较高的浓度。下面的相关图证实这是不正确的,因为没有明确的证据表明浓度与湿度成正比。

结论

在本文中,我们一直在研究量化和限定实时站数据质量的方法。假设有一个参考可信站,我们已经证明,使用 Cramér-von Mises 或 Wasserstein 距离进行量化可以表明任何站数据存在问题。

我们还表明,距离本身是不够的,更准确地说,应该理解车站的上下文。例如它的位置和气象条件。然而,由于上下文无法自动化,因此 WAQI 项目使用的最终解决方案包括与参考站的统计距离小于 1/4 的合格站。这将在未来几周内生效(有关实时站点地图,请参阅aqicn.org/station/

本文是该系列的一部分,在下一篇文章中,我们将研究没有参考站的情况下的资格站方法。


--

Volos promenade by night
单击此处查看所有常见问题解答条目
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • 关于空气质量与空气污染指数

    本网站采用的污染指数和颜色与EPA是完全相同的。 EPA的指数可以从 AirNow上查到

    空气质量指数空气质量指数级别(状况)及表示颜色对健康影响情况建议采取的措施
    0 - 50一级(优)空气质量令人满意,基本无空气污染各类人群可正常活动
    51 -100二级(良)空气质量可接受,但某些污染物可能对极少数异常敏感人群健康有较弱影响极少数异常敏感人群应减少户外活动
    101-150三级(轻度污染)易感人群症状有轻度加剧,健康人群出现刺激症状儿童、老年人及心脏病、呼吸系统疾病患者应减少长时间、高强度的户外锻炼
    151-200四级(中度污染)进一步加剧易感人群症状,可能对健康人群心脏、呼吸系统有影响儿童、老年人及心脏病、呼吸系统疾病患者避免长时间、高强度的户外锻炼,一般人群适量减少户外运动
    201-300五级(重度污染)心脏病和肺病患者症状显著加剧,运动耐受力降低,健康人群普遍出现症状儿童、老年人及心脏病、肺病患者应停留在室内,停止户外运动,一般人群减少户外运动
    300+六级(严重污染)健康人群运动耐受力降低,有明显强烈症状,提前出现某些疾病儿童、老年人和病人应停留在室内,避免体力消耗,一般人群避免户外活动
    (参考详见http://zh.wikipedia.org/wiki/空气质量指数)

    如果你想了解更多有关空气质量与污染,详见维基百科或者 AirNow

    有关健康建议详见北京的Richard Saint Cyr MD医生的博客:www.myhealthbeijing.com


    注意事项: 所有空气质量数据在发布时均未经验证,并且为了保证数据质量,这些数据可能随时被修改,恕不另行通知。 世界空气质量指数项目在编制此信息的内容时已经运用了所有合理的技能和谨慎,在任何情况下世界空气质量指数项目团队或其代理人将不会为由于提供此数据而直接或间接引起的伤害、合同损失、侵权及其他任何损失负责。



    设置


    选择语言:


    Temperature unit:
    Celcius