测绘地理信息

健康研究中的空间集群检测方法 

来源:测绘地理信息 【在线投稿】 栏目:期刊导读 时间:2021-04-19

健康是人们正常生活的基本保障,健康相关研究倍受国内外学者关注。健康变量大多与环境紧密相关,但传统的健康研究仅仅关注变量属性本身,忽略了与其相关联的地理信息,而空间集群检测方法(spatial clustering detection)能够同时考虑这两方面的信息,如今已逐渐成为空间分析的研究热点之一。空间集群检测的主要目的是探索变量的空间分布规律,通常将其与GIS结合,从而能够以可视化的方式呈现检测结果。它在许多领域均有重要应用,尤其在健康研究方面,如识别高危人群、分析健康服务可及性和评估疫苗保护功效等。本文旨在对应用于健康研究的空间集群检测的传统方法及其进展进行梳理,比较各方法的优缺点,为相关研究提供参考。

应用空间集群检测方法的文献检索结果

分别在CNKI核心期刊与ScienceDirect数据库检索中英文文献,检索过程如图1所示,检索结果见表1。

图1 检索流程图

表1 有关空间集群检测方法的文献检索结果数据库主要的学科分布篇(%)研究起始时间(年)所属国家研究主题CNKI(共926篇)经济管理387(42.5)1993中国房地产经济基础科学222(24.4)1994中国昆虫种间分布信息科技171(18.8)1997中国图像选取工程科技111(12.2)2003中国土地利用演变与健康医药卫生科技18(2.0)1990中国恶性肿瘤死亡率Science-Direct(共470篇)农业与生物科学182(39)1993加拿大植物基因分布环境科学175(38)1991澳大利亚空间自相关算法计算机科学99(21)1990美国古典玛雅崩溃社会科学93(20)1964英国疾病的时空性医药卫生科技89(19)1986中国癌症死亡率

综合文献检索结果发现,国外从20世纪40年代就开始运用空间集群检测方法且主要集中于农业与生物科学研究,在健康研究中的应用始于60年代;我国从80年代开始应用该方法,且主要集中在经济管理领域,之后也有应用于健康研究,但其研究规模远赶不上国外。另外,从研究内容上,我国主要集中在疾病的空间分布,而国外不仅涉及的疾病种类更多而且在健康服务可及性、疫苗功效评估等方面也有不少应用。

传统的空间集群检测方法

传统上,集群检测的主要目的在于验证某个假说,即某地区某种疾病的实际发病率与随机出现的预期发病率相同,由此找到可能的统计异常值,确定该疾病是呈现一定的集群特征还是随机分布,主要方法如下:

1.Geary C 系数、全局Moran指数、全局Getis-Ord G系数、Knox检验、Cuzick-Edward 检验

Geary C 系数(1954)、全局Moran 指数(1948)和全局Getis-Ord G系数(1992)(简称G系数)主要从相邻区域的空间关联性判断变量分布是否存在空间集群,被广泛用于刻画疾病风险、医疗资源利用与疫苗功效评估[1-6]等的空间分布特征,其中,后两种方法应用较多。G系数克服了Moran指数不能区分空间数据是高值聚集还是低值聚集的局限,但有研究表明,当估计聚集区域位于研究区域的边缘时,Moran指数的结果更为可靠[7]。

Knox检验(1964)[8]将累计病例对子数与相同的距离和时间间隔内的随机预期数进行对比,由此判断疾病时空集群特征[9-11]。该方法能够有效检测潜伏期短、发病急但发病率并不高的传染病的时空交互作用,但其对时空临界值的选择较为主观,详见表2。

表2 空间集群检测方法的比较空间集群检测方法优点局限Geary C 系数全局Moran指数全局G系数总体上判断整个研究区域是否存在集群结果受到人群异质性的影响,无法对集群的位置进行准确定位,研究结果无法外推Knox检验时空集群检测,能够有效检测潜伏期短、发病急但发病率并不高的传染病的时空交互作用对于潜伏期长的传染病与慢性病的检出率较低,检测结果易受暴露人口变动的影响,且对时空临界值的选择较为主观,研究结果无法外推Cuzick-Edward 检验总体上判断整个研究区域是否存在集群,适合于人群密度不均匀的情形最佳k的选择依赖于先验知识或通过多重检验调整得到,这可能会带来偏倚且研究结果无法外推核估计能够消除人口规模与年龄结构对集群确定的偏差研究结果无法外推,绘图结果受窗宽大小的影响空间K/L函数能够消除人口规模与年龄结构对集群确定的偏差只使用连续距离范围内点事件数目的计数,容易造成信息损失,研究结果无法外推等值线图能够用于定义风险地形,研究结果可外推到其他地区,结果更为稳健绘图结果容易受到人工插值的影响,从而产生偏倚,研究结果无法外推Besag-Newell 检验考虑了基础人群密度的异质性,专门用于罕见疾病,能够对空间集群的位置进行准确定位基于多重比较的思想容易产生集群的误检,倾向于检测到最高风险区域而忽略其他区域LISA、Getis G?系数能够对空间集群位置进行准确定位结果受到人群异质性的影响,研究结果无法外推空间扫描时空扫描能够对集群的大小和位置进行定位,易于对人群异质性进行调整、避免选择偏倚等分析地点与实际地点不一致时检测结果可能有偏差,统计效能依赖于扫描窗口子区域的大小及时间间隔的设定,若研究的子区域相互之间距离过远或研究对象时间跨度过大时,检测结果的可靠性降低,且当研究区域包含的最小单元子区域较多时运算效率将大为降低,从而出现偏倚

上一篇:医疗大数据核心问题是人不是技术
下一篇:没有了