遵循大数据基本范式赋能检察工作高质量发展
时间:2022-08-24  作者:赵宪伟 何熙巽  来源:检察日报
【字体:  

传统数据分析与大数据分析在服务法律监督基本范式上存在显著区别

遵循大数据基本范式赋能检察工作高质量发展

□大数据技术在法律监督中的应用必须遵循以数据为中心的原则,改变以经验为核心的传统范式,用数据驱动代替经验驱动,不断从数据中获取有价值的法律监督方向,形成大数据法律监督的基本范式。

□为了保障大数据法律监督的精准性,有效开展线索研判环节的工作,有关人员需要进一步培养线索研判能力,了解检察业务和社会情况,提高逻辑思维能力,掌握线索推演、推导方式方法。

2022年1月召开的全国检察长(扩大)会议强调,要以检察大数据战略赋能新时代检察工作高质量发展。笔者结合自身工作和实践,对传统数据分析技术、大数据分析技术在服务法律监督基本范式上的差别试作分析。

深入理解大数据的本质

大数据技术是人类长期实践经验与数学、通信科学、计算科学等相关领域研究成果结合的产物。十八世纪,以伯努利为代表的一批数学家以严密的数学形式论证了频率的稳定性,以及当随机事件发生次数足够多时,事件发生的频率将会趋近于预期的概率,简单来说,就是数据样本越多,其表现出的性质就越接近背后的规律。上个世纪四十年代,数学家香农基于长期通信科学实践总结出信息论理论,并提出用信息熵度量信息量的方法。在信息论的数学体系中,信息的意义在于消除不确定性,我们掌握的关于某个事件的信息量越大,信息熵的总和就越小,事件的不确定性就越低,对这个事件发生概率的预测就越接近实际值。

通过大数定律和信息论等理论成果,可以认识到大数据的本质,即通过数据中携带的信息消除事件的不确定性。在这一前提下,掌握的数据越多,数据中携带的信息就越多,消除客观规律中的不确定性就愈充分,就能以更高的概率认识到这些数据所代表的客观事物之间正确的相关性。与传统数据分析方法相比,大数据分析方法凸显三个本质区别:

一是使用数据全集,而非数据取样。在传统数据分析方法中,主要依靠抽样得到的数据来分析问题,因而为数据分析结论的准确性引入了来自片面数据源的风险。使用全集数据避免了个人视角的“狭隘”对数据分析结论的影响,使得数据分析更为全面。

二是更注重数据数量,而非数据质量。对于大数据分析而言,一方面数据规模上的增加可以显著提高信息消除不确定性的能力,从而增加数据分析结论的可信度;另一方面,不精确的数据对于大数据分析结论的破坏性可以被稀释、消除,从而提高数据分析方法的可用性及分析结果的可靠性。

三是以相关关系作为分析结论,而非因果结论。这是大数据分析方法最本质的特征,体现了大数据建立在不确定性上的方法论。大数据站在更为实用的立场上,专注于问题的解决,一般直接由相关关系指导实践,由“是什么”引导“怎么做”。在早期的大数据实践中,APRIORI关联规则算法被用于刻画顾客购买商品行为模型。基于该算法,人们发现男性超市客户购买啤酒和尿布的行为具有高关联度,且在货架上将这两类商品相邻摆放可以提高购买量。这一应用成果体现了大数据汲取信息、消除不确定因素、寻找强相关性、用相关性直接指导实践的典型流程。

大数据首先是技术上的革命,随着信息技术的发展和完善,分布式架构的提出,数据处理工具的更新迭代,数据处理规模不断扩大,量变引发质变,引发了数据处理方法、模式和应用场景的变革;大数据更是全新的思维革命,以灵活而简单的相关性代替机械而复杂的因果关系,以统计、信息论的近似方法代替从原因到结果严格推导,实现了从先有原因、再有结果到先有结果、结果指导实践的嬗变,为各行各业研究自然现象和社会规律带来了新的、更加有效的方式方法。

传统数据分析技术在服务法律监督上的基本范式

通过观察各地运用数据技术服务检察工作实践,可以观察提炼出运用传统数据分析方法服务法律监督的基本范式。这种范式以检察官经验为核心,用逻辑语言对模糊的经验进行确定性描述,然后将逻辑语言转换成计算机语言,形成法律监督模型。法律监督模型形成后,再按照模型要求搜集所需的数据,通过模型进行计算,从而筛选出符合检察官经验描述的、具有“嫌疑”的法律监督线索列表。这些线索将被推送给检察官,由其结合当前工作进行评估,从中提取必要、适当的线索形成案件。

上述过程按照时间顺序可以划分为经验、逻辑、模型、线索、案件五个环节。

上述数据分析技术服务法律监督的范式可以被称为“自动化”法律监督。“自动化”法律监督解放了检察官人力,使大规模运用数据成为可能,实现了对数据的初步利用。同时,使检察官的办案经验规范化,便于地方办案经验向全国推广,有效提高检察机关法律监督水平,具有重要实践意义。

此外,“自动化”法律监督需要运用计算机技术对大规模数据开展线索筛选、排查工作,在实践中容易与大数据法律监督相混淆。由于“自动化”法律监督以确定性的因果关系主导,而非统计学、概率性的相关关系主导,模型构建依据来源于检察官办案经验,而非通过获取数据信息消除不确定性而导出的数据中蕴含的规律。根据对大数据本质的理解,“自动化”法律监督并未实质上利用大数据技术,因而与真正意义上的大数据法律监督相比,在数据利用水平上还存在一定差别。

大数据分析技术在服务法律监督上的基本范式

大数据技术在法律监督中的应用必须遵循以数据为中心的原则,改变以经验为核心的传统范式,用数据驱动代替经验驱动,不断从数据中获取有价值的法律监督方向,形成大数据法律监督的基本范式。在新的范式中,对数据的利用要改变“有什么监督模型,就利用什么数据”的旧模式,转而采用“有什么数据,就研究什么监督模型”的新模式。

首先,以最大努力收集数据,构建检察大数据库,作为大数据分析的基础。在数据基础上,要充分运用决策树、聚类、分类、频繁项集、回归分析方法等大数据分析方法,在不引入经验或有限引入经验的前提下,直接通过挖掘数据中蕴含的分类关系、关联关系、定量关系和特异点等特征发现监督线索。由于法律监督相对商业行为更具严肃性,在获得监督线索后,要引入经验和分析研判环节,确定线索与现实行为的对应关系,明确该线索是否必要、适当。

其次,针对有价值的线索,需要将大数据分析成果,运用机器学习方法,转化为决策树、分类器、回归方程等实践中可以直接运用的法律监督模型,结合数据收集情况投入使用。

最后,基于大数据技术和机器学习等技术特性,利用模型运行过程产生的反映模型精确度、法律监督价值等情况的数据对模型进行优化,使模型参数更准确,更能够反映现实情况,从而持续提高大数据法律监督质效。上述过程体现的大数据法律监督基本范式可以划分为数据、线索、研判、模型、优化五个环节,不仅改变了数据分析服务法律监督的主要流程,而且在大数据技术的应用、对经验的依赖和数据驱动检察业务等方面相较于数据监督方法存在显著提升。

大数据法律监督的关键要点

为了提高大数据分析技术服务法律监督工作水平,将“检察大数据战略”赋能法律监督的作用落到实处,在大数据法律监督的实施过程中需要把握好四个关键要点:

数据要多。在大数据概念中,“大”这一概念是区分大数据分析方法与传统数据分析方法的核心。要运用大数据技术赋能法律监督,不仅要求数据覆盖面广,也对数据的绝对数量提出了更高要求,总而言之,就是“多多益善”。为此,要做好数据“开源”,一方面有效汇集检察机关内部数据,分类整理并长期存储、维护;另一方面推进与其他部门、机构的联网与数据共享,在安全保密的基础上做到“互通有无”,持续积累各方数据。

要重视技术。大数据是一门以统计学、计算科学和数学交叉而成的具有很强专业性的学科。要用好大数据,首先要学好大数据,而要学好大数据,首先要对大数据的专业性、技术性有清醒的认识。要意识到仅靠大数据思维不足以解决实际问题,必须要学习理解大数据背后的数学、统计学、计算科学知识和原理,大数据典型算法,掌握常见的大数据分析工具乃至一门或数门计算机编程语言。还要意识到大数据素质的培养不是一蹴而就的,必须要经过长期的实训和系统的教育。为此,要特别重视引入和培养大数据领域专业人才,做到适材适所,人尽其用。

进一步培养线索研判能力。由于大数据法律监督的严肃性,直接采用数据分析得出的线索指导实践是不恰当的,必须借助经验判断该线索对应异常情况是否由违法行为导致,相应的法律监督点是否合理。由于大数据技术重视相关关系而非因果关系,只能提取统计学规律而非客观世界的真实规律,其规律可能违反常理,甚至是片面、虚假的,由此大大加深了上述线索研判工作的难度。为了保障大数据法律监督的精准性,有效开展线索研判环节的工作,有关人员需要进一步培养线索研判能力,了解检察业务和社会情况,提高逻辑思维能力,掌握线索推演、推导方式方法。

要在实践中优化。大数据技术以概率性作为重要特征,大数据分析成果只能接近实际规律,而非与实际规律完全一致,因而在实践过程中永远有提高的空间,需要持续用数据“喂养”大数据模型,不断提高模型的精度与可靠性,进而提高对应法律监督点的应用价值,同时能够帮助已成型的大数据法律监督模型“与时俱进”,延长生命周期。此外,实践中还可能发现模型背后蕴含的现实规律和因果关系,从而提高运用模型分析结果的内心确信。

(作者单位:最高人民检察院检察技术信息研究中心)

[责任编辑: 佟海晴]
检察日报数字报 | 正义网 |
Copyrights©最高人民检察院 All Rights Reserved.