更准确地检测热点集群 可提供有关空气污染行为的新见解
一种更可靠的识别空气污染与天气条件之间关系不同的区域的方法可以改善对污染热点的检测。
天气条件和空气污染之间的关系很复杂,并且在不同位置之间可能有很大的不同。这使得很难查明污染源并预测其在大气中的行为。尽管数据科学家和统计学家在解决此问题方面取得了重大进展,但庞大的环境数据量和众多变量(例如风速,温度和污染成分)仍需要妥协才能使问题易于管理。
例如,大多数现有的检测空间数据变量之间相关性中的“热点”的方法都涉及构建一个网格,在网格中,单元中变量之间的关系独立于所有其他变量。尽管这不是完全现实的-空间区域之间尤其是天气和空气污染数据之间通常存在依赖性,但是要同时找到空间热点和确定空间依赖性结构非常困难。
来自KAUST环境统计实验室的Sun Ying和Lee Junho通过开发用于热点检测的“混合效应模型”解决了这一问题,迈出了一大步。
Lee说:“我们通过使用简单的空间块结构来近似空间依赖性来解决该问题。”“这使我们能够找到显示出不同模式的空间热点,同时减少由于空间依赖性而导致的误报率。”
与美国埃默里大学(Emory University)的霍华德·张(Howard Chang)合作开发的方法包括将区域分成多个块,然后对这些块顺序应用随机效果,以消除背景变化或“噪声”的强烈相关性。这具有能够识别数据中任意数量的热点群集(包括可能重叠的群集)的附加好处。
Lee说:“主要的挑战是如何为随机效应决定合适的块大小。”“我们决定将块大小与数据中空间依赖性范围相匹配。”
该小组将他们的方法应用于分析美国东北部的空气污染数据。他们发现,在整个区域的大部分地区,夏季空气中的微米级颗粒物(PM2.5)浓度随温度升高而降低。
“但是,通过我们的方法,我们可以找到趋势相反的不同区域,例如切萨皮克湾地区,PM2.5与温度之间呈负相关,而缅因州周围,PM2之间呈正相关。 5和相对湿度。” Lee说。