실시간 센서 네트워크 검증을 위한 통계적 거리 사용
Using Statistical Distances for Real-time Sensor Networks Validation

Posted on April 28th 2020
공유하다: aqicn.org/faq/using-statistical-distances-for-real-time-sensor-networks-validation/kr/
Overlapping kernel densities,
(credits)

2008년에 세계 대기 질 프로젝트가 시작되었을 때 기존의 모든 대기 질 모니터링 스테이션은 고도로 전문적이고 값비싼 BAM 및 TOEM 기술을 기반으로 했습니다. 이러한 종류의 스테이션은 항상 전문적이고 자격을 갖춘 운영자가 유지 관리하며 이는 이 스테이션의 출력을 신뢰할 수 있음을 보장합니다.

12년이 지난 지금도 BAM 및 TOEM 스테이션은 여전히 존재합니다. 그러나 레이저 산란 기술과 저가형 먼지 센서의 개발로 인해 BAM 및 TOEM 스테이션은 이제 거대하고 밀도가 높은 저가형 센서 네트워크에 비해 수적으로 압도되고 있습니다. 요즘에는 urad, luft-daten, airqo, airbg, opensense, yakkaw, econet, airkaz, ccdc, ambente, green air 등 이러한 네트워크가 너무 많습니다.

저비용 센서 네트워크의 근본적인 문제 중 하나는 신뢰성입니다. 많은 센서가 제대로 유지 관리되지 않거나 전혀 유지 관리되지 않기 때문에 완전히 잘못된 측정을 생성하는 센서의 양은 무시할 수 없습니다. 더욱이, 대부분의 네트워크는 복제된 센서가 있는 스테이션을 사용하지 않으므로(3개의 복제된 센서를 사용하는 Gaia 스테이션과 달리) 단일 센서가 실패할 때를 알기가 더욱 어렵습니다.

이 기사에서는 그리스의 멋진 도시 볼로스에 배포된 센서 네트워크를 살펴보고 스테이션 신뢰성을 실시간으로 검증하고 정량화하는 방법을 연구합니다.


--

그리스의 아름다운 도시 볼로스

볼로스 (그리스어: Βόλος)는 해안 항구 도시입니다. 인구는 144,449명(2011년)이며 그리스에서 6번째로 인구가 많은 도시이기도 합니다. 이곳은 중요한 산업 중심지이자 항구가 유럽과 아시아를 연결하는 다리 역할을 합니다. 현재 Volos에는 5개의 관측소가 있습니다. 하나는 그리스 EPA 에서 전문 BAM 관측소의 시간별 데이터를 제공하고, 4개의 저가 실시간 관측소는 lutf-daten 네트워크에서 제공됩니다.



Volos EPA 스테이션은 테살리아 및 중앙 그리스의 분산 관리 건물에 위치해 있습니다. 항구 옆에 위치한 Argonafton을 제외하고 다른 모든 역도 주거 지역에 위치해 있습니다.

항구의 교통량은 무시할 수 없습니다. 하루 평균 약 8척의 선박이 도착/출발하며 , 이 글을 쓰는 시점에서 선박의 80%가 화물입니다.

화물과 관련된 알려진 문제 중 하나는 품질이 낮은 연료 로 인해 배기관에서 입자 오염이 발생할 수 있다는 것입니다. 그러나 아르고나프톤 역이 위치한 곳에서 파노라마를 보면 화물까지의 거리는 지속적인 대기 오염원을 정당화할 수 없을 만큼 충분히 멀다. Argonafton의 공기가 더 오염되는 경우, 특히 대형 보트가 조종할 때 몇 번 볼 수 있지만 항상 그런 것은 아닙니다. 결국 하루에 운항하는 선박은 단 8척에 불과합니다.


A view of the waterfrond of the town of Volos, Greece
(attribution: wikipedia)


--

지난 30일간의 시계열 데이터

관측소 위치 정보를 바탕으로 Argonafton의 산발적인 높은 오염 사건을 제외하고는 모든 관측소가 비슷한 수준의 대기 오염에 동의할 것으로 예상할 수 있습니다. 그러나 불행히도 아래 시계열 그래프에서 확인된 것처럼 실제로는 그렇지 않습니다.

시계열 도표는 Argonafton 의 데이터가 다른 관측소에 비해 과대 추정되었음을 분명히 나타냅니다. 마찬가지로 Dimarxou 에 대한 데이터도 과소 추정된 것 같습니다.

문제를 강조하는 더 나은 방법은 해당 AQI 색상 범위를 사용하여 표시된 일일 75번째 AQI 백분위수를 시각화하는 것입니다. Argonafton과의 편차는 분명합니다. 또한 Riga-Feraiou+Kasthanaías와 Volos EPA+Dimarxou를 중심으로 두 클러스터를 구분하는 것도 가능합니다.


--

시계열 차이 정량화

상관된 시계열을 비교할 때 가장 좋은 방법은 확률 분포를 비교하는 것입니다. 아래 3개의 그래프는 밀도 분포, CDF(누적 분포 함수) 및 QQ(Volos EPA를 참조 CDF로 사용)를 나타냅니다. 이 3개의 그래프는 모두 지난 30일간의 시계열 데이터를 기반으로 하지만, 첫 번째 시계열 그래프에서 특정 시간 범위를 선택할 수도 있으며, 해당 3개의 그래프는 주어진 시간 범위의 값을 사용하여 업데이트됩니다.

Looking at the probabilistic distribution with a naked eye, it is obvious that there is a big difference between Argonafton, Dimarxou and the reference Volos EPA station. It is worth noticing that there is a "bump" around AQI 150: The reason is that the distribution plot is based on the AQI rather than the raw concentration, and the more compact [150,200] AQI range (compared to [100,150]) make the AQI denser for >150 compared to <150.

이 차이를 정량화할 때 통계적 거리 개념을 사용하여 "적합도"를 정량화하는 것이 가능합니다. 가장 잘 알려진 거리는 Kolmogorov-Smirnov, Wasserstein 및 Cramér-von Mises 거리입니다(해당 거리에 대한 자세한 소개는 이 훌륭한 설명을 참조하세요). 아래 표는 30일간의 데이터를 기준으로 한 거리를 나타냅니다(기본 시계열 그래프에서 시간 범위를 선택하면 값이 업데이트됩니다).

Station
Kolmogorov-Smirnov
Wasserstein
Cramér-von Mises

Kolmogorov-Smirnov 거리는 상대 거리를 올바르게 포착하지 못하지만(Dimarxou를 Argonafton까지 강조 표시) Wasserstein 및 Cramér-von Mises 거리는 모두 Argonafton의 거리가 더 멀다는 것을 강조합니다. 위 표의 값은 30일 데이터를 기준으로 한 것입니다. 아래 3개의 그래프는 지난 30일간의 7일 이동평균을 기준으로 한 것입니다.

이 그래프는 Wasserstein 또는 Cramér-von 거리를 사용하여 Argonafton 역과 Volos EPA로부터의 거리가 다른 역보다 지속적으로 최소 두 배 더 멀다는 것을 확인합니다.

기상 데이터 상관관계

아르고나프톤 관측소에서 비정상적이고 과대평가된 농도 판독값이 나온다는 가설을 확인하려면 기상 데이터를 살펴볼 필요가 있습니다. 아르고나프톤 관측소에서 더 높은 농도를 볼 수 있는 조건은 남쪽에서 바람이 불 때입니다. 즉, 바람이 화물 배기관 연기를 역 쪽으로 운반하는 곳입니다.

첫 번째 단계는 지난 30일 동안의 평균 풍향과 풍속을 확인하는 것입니다. 바람 데이터는 Volos Airport METAR 관측소와 Netatmo Tthiseos 기상 관측소에서 모두 가져옵니다. 두 개의 풍장미는 바람이 각 방향으로 부는 횟수를 나타냅니다.

두 풍장미 플롯은 바람이 주로 서쪽이나 동쪽에서 불고 남쪽에서는 훨씬 덜 불고 있음을 보여줍니다. 볼로스의 북쪽에는 산이 있기 때문에 북쪽에서 내려오는 바람은 거의 없습니다.

바람이 다른 방향보다 남쪽에서 덜 불고 있다는 이러한 경험적 확인에 기초하면, 화물 배기관이 아르고나프톤 기지의 PM 2.5 농도를 높이는 원인이라고 추론하는 것은 불가능합니다. 이 가설은 또한 관측소 중 3개와 공항 풍향 사이의 상관관계 도표에 의해 무효화되었으며, 이는 남풍이 높은 농도를 암시한다는 명확한 증거( 관측소 중 어느 관측소에 대해서도)가 없음을 보여줍니다.

마지막으로 Argonafton의 문제가 상대습도와 관련이 있는지도 확인해야 합니다. 예를 들어, 습도가 높을수록 입자 크기가 커지고 농도가 높아져서 문제가 발생할 수 있습니다. 아래의 상관 관계 도표는 농도가 습도에 비례한다는 명확한 증거가 없기 때문에 이것이 정확하지 않음을 확인합니다.

결론

이 기사에서는 실시간 방송국의 데이터 품질을 정량화하고 검증하는 방법을 살펴보았습니다. 신뢰할 수 있는 참조 관측소가 있다고 가정하면 Cramér-von Mises 또는 Wasserstein 거리를 사용하여 정량화하면 모든 관측소 데이터에 문제가 있음을 나타낼 수 있습니다.

또한 거리 자체로는 충분하지 않으며, 보다 정확하게는 역의 맥락을 이해해야 함을 보여주었습니다. 위치와 기상 조건 등. 그러나 컨텍스트는 자동화할 수 있는 것이 아니기 때문에 WAQI 프로젝트에 사용되는 최종 솔루션은 기준 스테이션까지의 통계적 거리가 1/4 미만인 적격 스테이션으로 구성됩니다. 이는 앞으로 몇 주 동안 시행될 예정입니다(실시간 방송국 지도는 aqicn.org/station/ 참조).

이 기사는 시리즈의 일부이며 다음 기사에서는 참조 스테이션을 사용할 수 없는 경우 스테이션을 인증하는 방법을 살펴보겠습니다.


--

Volos promenade by night
모든 FAQ 항목을 보려면 여기를 클릭하세요.
  • AQI Scale: What do the colors and numbers mean?
  • Using Statistical Distances for Real-time Sensor Networks Validation
  • Nitrogen Dioxyde (NO2) in our atmosphere
  • 대기질 및 환경 오염 측정에 관하여 :

    대기질 지수 단계에 대하여

    AQI지수구분구간의미
    0 - 50좋음대기오염 관련 질환자군에서도 영향이 유발되지 않을 수준
    51 -100보통환자군에게 만성 노출시 경미한 영향이 유발될 수 있는 수준
    101-150민감군영향환자군 및 민감군에게 유해한 영향이 유발될 수 있는 수준
    151-200나쁨환자군 및 민감군(어린이, 노약자 등)에게 유해한 영향 유발, 일반인도 건강상 불쾌감을 경험할 수 있는 수준
    201-300매우나쁨환자군 및 민감군에게 급성 노출시 심각한 영향 유발, 일반인도 약한 영향이 유발될 수 있는 수준
    300+위험환자군 및 민감군에게 응급 조치가 발생되거나, 일반인에게 유해한 영향이 유발될 수 있는 수준
    (Reference: see airkorea.or.kr)

    대기질과 오염에 대해 더 많은 것을 알아보려면 위키피디아의 대기질 문서(영어)을 보거나 대기질과 건강에 대한 AirNow 가이드(영어)를 참조해보세요.

    매우 유용한 베이징의 의학박사 Richard Saint Cyr MD의 건강 관련 팁을 보려면 www.myhealthbeijing.com 의 블로그를 확인하세요.


    사용안내: 모든 대기 질 데이터는 발행 당시에 검증되지 않았으며, 품질 보증으로 인해 이러한 데이터는 예고없이 언제든지 수정 될 수 있습니다. 세계 대기 품질 지수 프로젝트는이 정보의 내용을 편집함에있어 합당한 기술과 관심을 행사했으며 어떤 상황에서도 세계 대기 품질 지수 (World Air Quality Index) 프로젝트 팀 또는 그 대리인은이 데이터의 공급으로 인해 직접 또는 간접적으로 발생하는 손실, 상해 또는 손해에 대해 계약, 불법 행위 또는 기타의 책임을지지 않습니다.



    설정


    언어 설정 :


    Temperature unit:
    Celcius