数据挖掘——信息化战争的基础工程
来源:解放军报 更新时间:2012-04-15
 

 

  美国一些科学家不久前在拉特格斯大学开会,探讨如何把“次序理论”(抽象数学中关于等级关系的一个分支)应用于反恐行动。会议认为,恐怖分子利用网络组织实施恐怖活动,来无影去无踪。如果能够充分利用数据挖掘技术搜索庞大的数据库,就可能发现恐怖网络、人员、地点和事件之间的联系,加强反恐行动的针对性。例如,某一个计算机程序发现

两个恐怖组织的成员之间有大量的电子邮件往来,表明这两个组织可能正在进行某种合作——数据挖掘就这样成为反恐行动中掌握信息的得力工具。

  所谓数据挖掘,是指从大量、不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取隐含在其中的,人们事先不知道但又是潜在有用的信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,前身为知识发现(KDD),其实质就是发现情报背后的情报,“新闻背后的新闻”。如二战中,波兰军队根据一只波斯猫的出现推断德军的一个司令部的存在;上世纪六、七十年代,日本根据公开的信息推断大庆油田的方位、出油量等,都是通过简单信息推断深层信息的例子。当然,由于计算机技术和学习算法的限制,当时的情报加工主要靠人工分析完成。随着信息加工手段的计算机化和数据库技术的发展,情报由模拟信号变成了数据,情报深加工便发展为对已知数据的挖掘。

  伊拉克战争开始前,美军就利用其高技术信息情报手段,对伊拉克进行了长期、全面和深入的监视与情报收集工作,掌握了大量政治、经济和军事情报。以此为基础,通过数据挖掘,美军对各种作战方案进行了充分论证和演练。战前,美中央总部还利用数据挖掘等技术制定了“联合一体化目标清单”,其中包括多达25240个攻击目标,仅针对伊领导集团及其控制能力的目标就有4559个。在战争中,美利用庞大的情报侦察网继续大规模收集情报,并与以前数据库融合,挖掘出许多新的信息,预测敌方可能的行动,为其让世人惊异的高速突击作战提供了有力保证。

  在信息化战场上,数据挖掘能使人们对所处战场形势有清醒的察觉,知道敌人正在做什么,为什么要这么做;对自己掌握的信息有一个正确的评估,能及时地制定作战计划并加以实施。正在兴盛之中的“基于效果作战”,则更加依赖于数据挖掘。因为传感器的原始信息仍然难以准确反映作战的效果,通过数据挖掘产生的结论,才能更好地支持效果作战。

  数据挖掘之所以被广泛运用于信息化战场,就在于其具有预测和描述两大功能。预测是从已知事件推测未知事件,用今天演绎未来的过程。数据挖掘中的预测,是利用数据库中已知知识和专家知识建立识别模式,预测或查证未知同类型信息的知识表达。信息化战场由一系列瞬时事件组成,数据挖掘能发现已有的数据库与新近发生的战场事件间的联系,通过已知事件推导未知事件,预测将要发生的事件,这对夺取战场决策优势和行动优势至关重要。描述是信息推演信息,揭示已有信息更深层的内在表达,指从现实数据库中发现和抽取未知的、有价值的和可理解的模式。信息,既反映表象,又反映本质。只有把信息放在相关联的环境中,通过挖掘才可以“吹沙见石”,发现反映事物本质的真相。

  数据挖掘是平时准备与战时运用的有机融合。它包括以下必备步骤:一是数据准备。数据挖掘必须要有“矿床”:由已知数据、主观思考模式等组成的背景情况,否则无法挖掘。在战前,要针对特定方向收集各类数据,建立相应的数据库。数据准备包括数据集成、数据选择和预分析过程等。二是建模。数据挖掘依赖于一定的模型。建模是指依据挖掘目标由已知知识建立判别模式,提供给网络训练、学习并记忆。判别模式,由文化、教育、理性和经验等所决定,应具有开放性。如固守一个模式,拒绝其它模式,可能会将挖掘引向歧途。三是挖掘。利用训练成熟后的网络记忆,查询、分析数据库中的数据,挖掘出与已知模型同类型的知识或新信息。四是表达。不同的用户,需要不同种类和不同级别的信息。根据用户的具体需求,以不同的输出把挖掘结果反映给用户。五是评估。挖掘的知识是否准确,需要评估和检验,如不准确还需要反馈重新运行模型,直到满意为止。

  数据挖掘,既是信息处理的工具,也是信息化战争的思维方法。信息化战场上,各种信息浩如烟海,重复、不完全、有噪声、模糊、随机信息充杂其中,必须有数据挖掘的意识和慧眼,不被信息的表象所迷惑。数据挖掘基于“知彼知己”,应加强特定方向的数据库建设:包括对方地理及天气影响;通信、运输和电力分配基础设施网络图;政治领导人、金融机构和关键产业的联系分析图;电脑空间薄弱环节图;关键性军事、政治、经济和社会人物的心理特征等,并分析敌人的政治、军事、经济、社会、基础设施和信息系统以及它们的相互关系,对己方可以采取的各种潜在行动做出判断。

  无论是信息化建设,还是信息化作战,数据挖掘技术都有着很大的牵引和拉动作用。信息侦察手段处于劣势的现实,更要求我们必须大力开发数据挖掘技术,充分利用来之不易的信息,发挥出最大的作战效能。