相关动态
董青岭:大数据安全态势感知与冲突预测
2024-11-10 17:24

十年前,美国爆发金融危机。我们今天重新审视这场危机及其深层次原因,对比改革开放40年来中国道路日益彰显的优越性,对于我们把握美国乃至整个西方面临的制度困境及其未来走向,更坚定地沿着中国特色社会主义道路前行,推动构建人类命运共同体,积极参与全球治理体系改革和建设,都具有十分重要的意义。伴随着社会生活“软件化”和“数据化”进程的加速,全球政治图景即将进入一个以人机结合、数据驱动为主导的新时代。以往,囿于数据采集和数据分析手段的限制,小样本抽样调查、实验室典型案例观察、历史经验知觉感悟以及基于有限变量的因果逻辑推演,构成了社会科学洞悉世界的主要手段。透过小样本调研与结构化数据分析,社会科学研究尤其是国际观察所得到的研究结果多是线性因果推论,复杂性和不确定性被刻意忽略了。在此背景下,冲突预测因只能专注于问题的某一侧面而无法顾及全局,越来越难以服务于复杂社会现实中的政治需要。

董青岭:大数据安全态势感知与冲突预测

基于此,传统上以群体间政治为核心观察对象、以结构主义为主导分析路径、以小样本归纳为主要知识生产方式、以传统因果律为逻辑基础的冲突预测方法正在受到挑战。有学者指出,传统冲突预测研究深陷历史决定论和结构主义迷途,漠视了宏观社会结构其实是由微观施动者之间的互动造就的,忽略了引致冲突爆发的微观基础和微观互动进程。因为一旦忽视了利益相关者的卷入和利益伤害的链条传递效应,就会导致冲突信息的收集只聚焦于特定团体或问题的某个侧面,最终因信息输入的失衡、片面或失真而无法做出有效预测。传统的冲突预测方法亟需反思和重塑。

就此而言,大数据的兴起及其分析技术的应用,或将为国际关系研究中的冲突预测开辟新的理论路径。一方面,随着社会生活网络化、数据化和智能化趋势的日渐增强,微观主体之间的互动将产生更多的数据痕迹,冲突预测研究能够获得较以往任何时候都更为丰富的信号信息;另一方面,由于数据追踪采集手段和数据分析工具的不断升级,冲突预测研究不仅能够深入挖掘更为即时和微观的细节数据,而且能够实现数据的动态、连续和非结构化。这使得冲突预测研究比以往任何时候都更有机会抵近观察微观主体之间的互动是如何影响甚至再造社会政治结构的。如安德烈·茨维特所言,大数据或许是我们重塑现行国际关系理论和传统冲突预测方法的历史性契机。

一、重新审视冲突预测研究中的因果性

在国际关系研究领域,冲突预测历来是一个较为宽泛的概念,通常指以下四类问题的爆发、持续、终止,以及附带伤害的预测分析。其一,战争。根据瑞典乌普萨拉冲突数据库(Uppsala Conflict Data Program,简称UCDP)的定义,战争指在一年期内死亡1000人及以上的有组织暴力对抗,既包括被压迫集团推翻压迫集团的革命战争,也包括一个民族或种族摆脱其他民族或种族统治的民族解放战争,同时还包含一个国家或国家集团同另外一个国家或国家集团之间的国际战争,但无论哪种形式的战争,当事方中至少有一方为国际法所承认的主权国家的政府或政府代表机构。其二,武装冲突,指的是在一年期内死亡人数在25—999人之间的有组织暴力行动,其中尤以寻求自治或独立为目标的武装反叛和以推翻现政府为目标的政治暴动最为典型。其三,种族屠杀,指人为地、系统性地、有计划地对特定种族、族群、宗教或民众团体进行的整体性或局部性灭绝杀戮。其四,政治动荡,主要指的是以表达政治意愿为目标,以打、砸、抢为主要特征的骚乱和抗议活动,同时还包括那些旨在迫使政府改变立场的恐怖活动。

总体上看,冲突预测即是指借助政治理论、国际关系学说和统计模型,通过在自变量(冲突因子)与因变量(冲突爆发)之间建立因果性关联,感知、预警和预防政治系统中大规模暴力伤害的研究。所谓因果性是指一个变量的存在或变化一定会导致另外一个变量的产生,前后两个变量之间存在必然关系而不是或然联系。正是基于对因果性的认识,传统的冲突预测研究认为,发现必然联系要远重于挖掘偶然相关联系,冲突预测研究的核心任务在于通过变量控制实验、利用多重统计技术识别因果之间的必然联系,然后通过必然性推理感知冲突的爆发,并预测危机事态的未来发展趋向。

从这个意义上说,传统冲突预测是“基于因果性的冲突预测”。然而,大数据的出现和应用正在改变这一图景,“基于相关性的冲突预测”正在开辟出新的研究路径。

第一,大数据应用提升了冲突预测研究中有关“相关性”的再认知。所谓相关性是指一个变量的变化总是存在伴生现象,即在统计上研究A变化时总能观察到B或C也在变化,但不能确定究竟是前者A引起了后者B或C的变化还是后者B或C引起了前者A的变化,很可能ABC都是其他变量D变化所产生的结果。与因果性强调必然关系不同,相关性关注联系的共现性,即A现象与B现象有无同步共生或前后伴生关系。在疾病预测领域和消费推荐领域,大数据相关性分析已取得令人瞩目的成就,但在冲突预测领域,相关性分析尚未得到充分重视。当前,围绕着“重视相关性还是重视因果性”以及“如何厘定相关性与因果性二者之间的关系”,学术界还存在争议。一种观点认为,相关性比因果性更重要,“建立在相关关系之上的预测分析是大数据的核心”,相关关系能够帮助我们更好地了解这个世界。而另外一种观点则认为,“放弃了对因果性的追求,就是放弃了人类凌驾计算机之上的智力优势,是人类自身的放纵和堕落”,“认为相关重于因果,是某些代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义魅影,绝非大数据自身的诉求”。而折中主义的观点则认为,“相关关系是对因果派生关系的描述”,“相关关系根植于因果性”,二者不是相互对立的。但不管持哪一种观点,可以肯定的是,上述相关争论提升了国际关系学者在冲突预测研究中对相关性的认识。

第二,大数据应用激发了冲突预测研究中有关“因果性”的再反思。基于大数据的冲突预测认为,随着社会网络化进程的不断演进,个体行为体的决策和行动越来越根植于广泛的社会网络之中,冲突预测研究原有的行为体“独立理性人”假设日趋滑向“网络化的社会人”假设。先前统计观察中看似独立的变量已被“网络化”销蚀得越来越难以独立。一个现象的产生越来越难以被认为是某个单因素或几个不可通约变量各自互不相干、独立作用的结果。在全球互联互通的互动情景下,冲突问题的产生和发展,越来越不像传统冲突理论所描述的那样变量明晰、因果直接且带有必然性。相反,诸多冲突问题的产生与发展越来越表现为过程极为复杂的系统演化结果,即是由诸多意料之外的社会变量和政治变量因缘际会、相互作用的产物(如下图所示)。就此而言,传统因果性分析假定自变量通常相互独立而非相互纠缠、相互作用,严重低估了真实冲突场景中各个微观主体之间的频繁互动和各观测变量之间的相互扰动,忽略了各原因变量在事物产生过程中的“内在相互作用”,也漠视了全球政治的复杂关联性。传统冲突预测研究将自变量之间的偶合关系简单区分为条件变量与核心变量、而不是原因要素的聚合与相互影响才能产生出结果,将自变量与因变量之间时序相继简单归结为统计上的关联显著、忽略了考察从原因要素偶合到生成最终结果的复杂反应链条,无法精确解释“国家何以相互敌视”、“部族何以相互仇杀”、“恐怖主义何以蔓延”等具体问题。因此,在网络化的社会场景中,传统因果性分析因忽视了自变量之间的相互扰动性而日益陷入难以预测的“预测性危机”。

第三,大数据的出现和应用或将改变冲突预测研究的前提假设。越来越多的研究者质疑:为什么大多数国际关系理论和冲突预测模型可以完美阐释网络化时代以前的政治变动,却不能有效应对今天的政治挑战,更难以卓有成效地判断未来冲突趋势?究其原因,传统冲突预测研究是以世界彼此分割、社会稀疏互动为假设前提的,微观主体尤其是个人、企业以及各类非政府组织等非国家行为体低频、低密度互动,社会信息传递不那么灵敏且极易歪曲。国际政治现象的变动更像是在各个问题领域互不融通、各个群体可以封闭决策的情形下,由一个或几个关键变量(如民主制度、宗教构成和敌我力量对比等)独立施加作用的结果,以致在很大程度上以追逐“显著性”和“稳定性”必然联系为特征的因果性分析看似是有效的,甚至可以凭借少数几个原因变量就可以高效、简约地预测大部分国际冲突现象。但是,大体量、连续性和非结构化微观数据的可获得、可计算正在不断放大传统理论的可验证范围,变量之间的相互扰动正使得先前看似独立的变量不再那么独立,传统的关键变量决定论正面临社会复杂演进的严峻挑战。

二、复杂社会中的“网络社会人”假说

除了批评和质疑因果性之外,大数据的出现和应用还挑战了当前冲突预测研究中占据主导地位的“工具理性人”假说。

根据“工具理性人”假说,冲突行动通常被认为是特定社会结构压力下,作为理性行为体的冲突各方理性抉择的结果。一方面,冲突中的各行为体理性且自私,即每一个冲突群体或个体都将冲突行动视为实现自我利益的工具手段,从自身利益最大化出发计算成本与收益,考虑利弊、权衡得失。另一方面,冲突行动主要不是表现为微观主体之间难以抑制的情绪性发泄和盲目的从众行为,而是基于特定社会条件、特定资源约束的审慎考量与理性选择。在此情形下,冲突预测的目标主要聚焦于找寻那些有可能诱发冲突的结构性社会条件,并作出符合行为体利益最大化的理性推测。基于“工具理性人”假设的冲突预测主要适用于预测群体间冲突策略的选择和评估中长期安全态势,但难以预测冲突于何时何地爆发以及会带来何种影响。

与之相对照,基于大数据的冲突预测以新的社会情景建构为背景,提出以“网络社会人”假说取代“工具理性人”假说。“网络社会人”假说具体包含以下内容:首先,冲突中的各行为体并非是可以封闭决策的孤立社会存在,而是身处各种相互嵌套的社会网络联系之中。每一个行为体都可视作社会联系之网上的一个信息和资源节点,通过网络中信息的传递和资源的流动,每个行为体之间彼此是相互学习、相互影响的。其次,各行为体之间连续且不间断的日常互动构成了世界政治体系演化的动力,是微观主体的持续互动造成了宏观层面的冲突态势,冲突预测研究应更多关注从微观到宏观的研究进路。再次,冲突的扩散和蔓延在很大程度上取决于社会关系网络中信息的传递、交换与耦合,正因为人们在网络化的社会生活中相互影响并交流、传播信息,恐慌、泡沫和动乱才会像传染病那样骤然爆发并蔓延。就此而言,冲突预测未必非得建立在理性选择与因果性分析之上,通过捕捉散落于各个社会角落的冲突信号,运用大数据相关性分析同样可以预测冲突的爆发与否以及冲突的蔓延方向。

“网络社会人”假说预设了一个以信息交换为主导特征的现代网络社会,在这样一个社会中由于各个行为体是彼此关联、相互扰动的,一切冲突现象的爆发、持续和终止都会对应着一系列信息映射(数据)上的变化,通过观察这些作为冲突表征的信息映射(数据)的关联性变化,基于大数据的冲突预测在无关理性选择和因果分析的前提下,可以感知冲突临近与否以及即将到来的冲突烈度如何。在某种意义上,“网络社会人”假说下的基于大数据的冲突预测更多探求的是一种相关性分析,着眼点在于判断映射冲突的N元特征向量是否正在发生同步异变或伴生变化,亦即如果某种类型冲突映射对应着N元特征向量,那么现在通过大数据相关性分析观测到了N-1个对应特征向量发生了同步异变或前后关联变化,则基本上可以判断该种类型冲突正在临近,理论上观测到的对应特征向量同步或伴生变化越多,有关冲突的时空节点和烈度预测也就越准确。概言之,冲突总是有迹可循的,如果一场冲突临近或即将爆发,则事前必然会显现为数据特征上的若干蛛丝马迹。

当然,基于大数据的冲突预测并不是否认或贬低因果性分析在冲突预测中的作用,而是试图在社会复杂互动背景下重新理解和诠释“因果性”的基本内涵,同时提请研究者们关注和重新发掘“相关性”在冲突预测中的可能价值。由此,在因果性之外,冲突预测或将存在着一条基于相关性的分析路径。所不同的是,因果性分析侧重从宏观到微观的研究进路,结构主义视角下的理性选择是其典型理论特征;而相关性分析则更加强调从微观到宏观的研究进路,基于关联共现性的特征向量提取和比对是其预测精髓所在。

三、基于相关性的安全态势感知原理

综上所述,基于大数据的冲突预测不同于传统冲突预测,在某种意义上,它更多体现为现代数据分析技术对社会日常生活数据细微变化的即时捕捉、快速处理和高速计算。就此而言,基于大数据的冲突预测也可形象地称之为“大数据安全态势感知”(Situation Awareness Based on Big Data)。所谓“大数据安全态势感知”指的是以“网络社会人”和人际之间的信息交换为前提假设,凭借计算机系统或其他信息手段对社会互动情境中多重冲突因子的捕捉、感知和响应,对冲突态势作出预测和分析。

相比于传统冲突预测研究所推崇的结构主义路径,大数据安全态势感知更加强调将国家想象为由数以亿计微观主体互动所构成的系统集合、将国际社会看作是跨越国界而又彼此关联的人际关系之网,冲突预测重在监测考察微观主体之间的互动对宏观结果的影响和塑造,其分析着力点是捕捉网络化社会中微观主体之间的复杂关联与即时信息流动。

大数据的安全态势感知具有以下特点:其一,力求掌握与研究对象有关的更多微观连续性数据而非断续性或典型性数据,着力刻画研究对象的整体特征和微小细节;其二,力求在传统结构化数据之外容纳非结构化数据(如海量的新闻报道和社交网络记录)分析,追求数据的多样性、混杂性而非精确性;其三,试图超越研究变量之间传统的因果逻辑,重在探究那些能够引起变化的数据之间的关联共现关系。总体而言,基于大数据的安全态势感知是建立在变量相互扰动说、系统演化论和信息交换论基础之上的特征映射分析,其研究路径更加看重的是微观主体之间的网络化互动、相互影响以及群组变量之间的共现关系,而非单因变量的偶然性显现。

在具体实践领域,大数据安全态势感知对冲突场景作如下假设:作为政治体系的基本构成单元,人是一种高度重视自我利益保护和规避风险的感性动物,且极易受人际关系网络中信息流动的影响,在日常生活实践中人与人之间的互动频度与互动方式是相对稳定的,因此人与人之间的信息传递内容、速度和方式也是相对稳定的,由此决定了个体的行为轨迹及其交际内容在日常实践状态下通常也是高度结构化可循的。因此,一旦某些数据在特定地区的大多数人群中突然发生同步异变,则很可能是该地区正在遭受经济危机、自然灾害、疾病传播、政治骚乱、武装冲突或恐怖袭击等异常事件之侵扰。

具体而言,大数据安全态势感知的操作逻辑非常接近自然科学领域中的地震预测、医学领域中的“并发症”研究以及声学领域中的信号识别。具体到国际关系场景中,当一个地区安全环境恶化时,作为微观主体的个人因身处危险最前沿会率先感受到威胁,继而将采取预防性规避措施并将危险信息和切身感受沿社会网络传递到与之互动的其他个人和群体,由此可能导致越来越多的人改变日常行为。例如,当微观主体凭直觉感到骚乱或动荡临近时,商人会为规避损失而另谋出路、投资者会抽逃资金、旅行者会减少出游、留学生可能会提前回国、居民会囤积生活用品并导致食品和医用品大幅涨价、物价指数全面飙升等。在现代信息分享机制的促动下,数以亿计的个体微观感知很容易汇集为有关冲突临近的整体性画面。研究者如果凭借大数据手段观测到多重数据信号的同步异变,就可以做出较传统因果性分析不一样的冲突预测。理论上,大数据分析观测到的同步异变特征向量越多,冲突预测结果越准确。

四、关联共现视角下的恐怖袭击预测

作为一种基于相关性的分析视角,大数据安全态势感知具体操作可分为以下两个关键步骤。第一,多源数据感知、清洗与挖掘,即利用不同种类传感设备、不同软件程序,从不同数据源挖掘提取相关数据并去噪音和规整的过程;第二,基于机器学习手段的冲突模式识别,亦即通过大规模数据训练,发现微观行为与宏观冲突之间的关联共现关系,然后利用关联共现概率模型预测冲突类型、冲突规模和冲突烈度以及冲突演变态势的过程。目前,在冲突预测研究中经常用到的机器学习模型主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)两种,其中有监督学习最常用的训练方法主要有支持向量机、贝叶斯网络、决策树和马尔科夫链等,而无监督学习则主要包括聚类分析和模式挖掘,另外诸如主成分分析、多元线性回归以及信息熵等数值分析法也经常被用来测度群组变量的关联共现关系。

鉴于以上认知,本文试以2013—2017年的新闻报道数据和社交网络数据为研究对象,以英国恐怖袭击预测为例,对大数据安全态势感知的预测能力进行验证。

首先,本案例研究的数据主要来自GDELT和GTD网站。其中,GDELT主要提供了用于观察社会关系网络中信息流动的新闻数据、社交网络数据及其相关地理位置信息。这些数据都是即时滚动的。GTD网站则记录了以天和经纬度来标记的英国恐怖袭击事件的频次。其次,本案例研究的主要目标是以网络中前N天信息传递内容和频率来预测英国特定地区在第N+1天爆发恐怖袭击的冲突概率。其中,信息传递内容以GDELT的TONE值亦即社会情绪值来度量,而信息传递频率则以每天涉英政府新闻报道数和社交发帖量加总来统计。另外,本案例研究的设计思路是以民众与政府之间的双向互动为聚焦点,通过考察政府对民众的言语和行为以及民众对政府的言语和行为来捕捉冲突信号,进而基于关联共现关系和机器学习进行恐怖袭击预测。

具体数据结构如表1所示,作为冲突特征向量的数据类型选择主要着眼于民众与政府的双向互动进程,共分为信号内容与信号频率两种:其中信号内容主要是指信息传递的社会情绪值,表征民众与政府的各自政治要求与相互不满意程度,而信号频率则主要是指包含以下指标的涉英政府每日新闻报道数和社交发帖量,即民众要求、政府不赞成、民众抗议、政府拒绝、民众威胁、政府强制、民众攻击和政府打击,表征民众与政府的互动频度与互动性质。从某种意义上说,以上冲突向量特征的选择(信号内容×信号频率)是对现实冲突场景的数据模拟。起初,民众与政府之间的互动也许只是口头上的批评和交流,但一旦某一方的要求得不到尊重或满足,则言语相争就会在往来互动中逐步升级为肢体冲突。基于此,通过监测和追踪民众与政府的双向互动进程以及测量内蕴于信息传递过程中的社会情绪波动,即可实现冲突预测目标。

本案例研究共采集和追踪数据信息1552天,数据起止时间为2013年4月1日至2017年6月30日,数据覆盖涉英恐怖袭击共计339次。具体研究步骤共分为频率统计和机器学习两个阶段。第一阶段,为了验证所选变量是否为有效变量并确定最佳观测天数周期,本研究利用频率统计,发现社会情绪的起伏与英国遭受恐怖袭击频次之间存在一定相关性(如表2所示)。在有关民众诉求与政府回应的互动交流中,社会情绪值越低、遭受恐怖袭击的概率就越高。此外,如表3所示,社会情绪持续低落的周期越长,爆发恐怖主义的概率越高。不过,在本统计中由于波段分隔系数的设置,社会情绪的持续低落一般不会超过7天。透过频率统计,大数据挖掘印证了大多数恐怖袭击是在民众与政府恶性互动背景下发生的,从某种程度上与民众诉求无法得到尊重或满足的极端情绪有相关性。

第二阶段是机器学习阶段。本案例研究依据频率统计分别选择前5天、前4天、前3天和前两天作为数据观测周期。通过单隐层前馈神经网络建模有监督机器学习(预测神经元数量统一设定为5)。同时,以前900天数据为训练数据、以后652天数据为测试数据,预测检验第5+1天、第4+1天、第3+1天、第2+1天爆发恐怖袭击的概率可能。结果发现,第5+1天的预测准确率为56.4%、第4+1天的预测准确率为62.7%、第3+1天的预测准确率为71.9%,第2+1天的预测准确率为47.8%(如表4所示)。与预期80%左右的预测准确率相比,这一预测结果似乎并不理想,但考虑到恐怖主义本身多为小概率稀有事件,GDELT和GTD数据本身存在噪音,以及以天为单位属于细颗粒度预测等情况,这一冲突预测结果仍在可接受范围。特别是有关第3+1天的预测,在重新清洗数据之后,预测准确率从66.7%提升至71.9%。这充分说明GDELT和GTD数据存在噪音问题。基于上述实证检验结果,本案例研究的结论认为,在传统因果性分析之外,基于多元变量关联共现关系的冲突预测是可行的研究路径。

结论

综上所述,基于大数据安全态势感知的冲突预测,其实质是着眼于关联共现关系的冲突特征模式识别。这一研究路径假定现实世界是一个相互联系而又彼此扰动的关联世界,在这个关联世界里每个行为体都是“网络化的社会人”。正是由于难以计数的微观主体之间的持续互动、相互学习和相互影响,世界才具备了不断演化的动力并表现出各种复杂性和不确定性。但即便如此,世界仍然是可以被感知、被预测的,因为宏观现象是由微观主体之间的互动造就的,而微观主体之间的互动在很大程度上表现为信息、物质与能量的交换,在现代大数据分析技术条件下,这些互动痕迹通常是可以被记录和分析的。

总体而言,与传统因果性分析相比,大数据安全态势感知基于关联共现性分析实现了现实冲突进程的实时监测与即时预测,在一定程度上支持了复杂科学的“变量相互扰动论”和“系统演化论”以及有关人际互动的“信息交换论”。基于此,传统冲突预测需要直面社会不断“网络化”和“数据化”的现实,不断调整、修正逻辑规则以适应未来挑战。(注释略)

文章来源:《中国社会科学》2018年第6期;国关国政外交学人微信公众平台首发

    以上就是本篇文章【董青岭:大数据安全态势感知与冲突预测】的全部内容了,欢迎阅览 ! 文章地址:http://ktsh.xhstdz.com/quote/61712.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多   
发表评论
0评