【资料】利用社交网络分析和网络取证方法研究网络宣传运动

丁爸 情报分析师的工具箱 2021-01-14 19:24

本文机器翻译由百分点智能翻译提供

官网地址:http://translate.percent.cn/

公司官网:https://www.percent.cn/

商务和技术咨询欢迎联系400-6240-800 或 fanyi@percent.cn

【摘要】
在今天的信息技术时代,我们的政治讨论正在减少,以适应我们的智能手机屏幕。此外,随着社交媒体等廉价而无处不在的大众传播工具的出现,传播虚假信息和宣传既方便又有效。团体组织利用社交媒体协调网络宣传活动,以实现战略和政治目标,影响大众思维,并引导人们对事件的行为或观点。在这项研究中,我们研究了在线异常组织(ODG),他们在Twitter和博客上创造了大量针对北约2015年三叉戟联合演习(TRJE 2015)的网络宣传。社交媒体网站上出现了反北约的言论,随着2015年TRJE活动的临近,这些言论变得更加强烈。针对TRJE 2015的公民抗命、有计划的抗议和直接行动的呼吁在社交媒体网站上传播。我们使用计算社会网络分析和网络取证的分析方法来研究那些寻求主动和远离北约的战略信息的信息竞争对手,以推进他们自己的议程。通过社交网络取证工具,例如Maltego(https://www.maltego.com/),我们提取与宣传层出不穷的网站相关的元数据。提取的元数据有助于收集社交网络信息(即,朋友和追随者)和通信网络信息(即,描述诸如推文、转发、提及和超链接的信息流的网络)。通过计算社会网络分析,我们确定了有影响力的用户和有影响力的群体(或焦点结构)来协调网络宣传活动。这项研究调查了自1997年以来拥有超过1.8万篇博客帖子的21个博客,以及2014年8月3日至2015年9月12日期间超过9000名推特用户。这些博客被识别、爬行并存储在我们可以通过Blogtracker(http://btracker.host.ualr.edu/)工具访问的数据库中。Blogtracker工具进一步帮助我们识别博客的活动模式、关键词模式,以及博客或博客作者对社区的影响,并分析情绪在社区中的扩散。


一、简介

技术在发展,这种发展改变了我们获取信息、表达观点或相互交流的方式。社交媒体的廉价、易用和受欢迎的特性使其成为一种强大的工具,可以用来传播错误信息或协调网络宣传活动,以实现战略和政治目标,影响大众思维,并引导人们对事件的行为或观点。这促使我们调查这些现象,并进行这项研究/研究。例如,有许多亲俄媒体推动的反北约宣传,将北约的演习(2015年三叉戟联合演习)描述为为第三次世界大战做准备,或对俄罗斯的挑衅行为,这些演习本质上不是防御性的,而是公开的侵略性。这样的宣传在许多社交媒体上被分享,比如博客网站、推特或Youtube频道。


一项研究表明,网络犯罪分子倾向于通过网络社交媒体中存在的“黑暗市场”合作甚至交易网络攻击工具。除了网络犯罪分子之外,不正常的团体也可以共同合作并利用这个市场采取行动。我们将在线异常组(ODG)定义为使用网络空间组织有害活动的一组个人,其结果将影响网络空间、物理空间或两者,即“控制论空间”。


社交媒体,如博客、Twitter、Facebook、GooglePlus、Instagram等,都是丰富的信息来源,由于全球有数百万社交网络用户,社交媒体的网络法证分析有着广泛的应用,对社交媒体站点进行网络取证分析有助于收集证据,帮助调查人员形成强有力证据,网络取证是"从计算机系统、计算机网络和数字媒体提取和/或包含的证据的获取、认证、分析和文档化的过程",通过使用使用网络取证提取的元数据,可以发现这些异常组。我们开发了可用于识别此类异常群体的方法。


数字取证研究可分为理论和技术两大主题。理论研究包括理论和方法的发展,包括进行数字取证调查的模型、框架和过程。Lau等人做了一项研究,他们将概率生成模型应用于从网上社交媒体挖掘网络犯罪网络。其模型优于基于支持向量机(SVM)的方法(ROC曲线下面积为16.62%)和基于潜在Dirichlet分配(LDA)的方法(ROC曲线下面积为5.23%),技术研究包括开发工具和技术以帮助数字取证调查,收集社交媒体证据不同于传统数字取证,传统数字取证通常要求调查员从所拥有的硬件中提取数据。Facebook或Twitter等社交媒体提供商不会帮助调查人员获得证据,除非这是一个极端的案例。网络取证学的问题之一是如何以易于理解的格式可视化收集的网络取证数据,调查人员可能使用的一些技术是屏幕投放工具,比如微软的Skydrive或Screencast-o-matic,它们记录了调查者在社交媒体上可能看到的任何东西。


本文运用社会网络分析和网络取证技术,对网络宣传运动中社会媒体中的异常组织协调行为进行了识别和研究。对于网络取证数据,我们使用Maltego(https://www.maltego.com/),这是一个工具,可用于收集任何公开数据,以便深入了解不同的社交媒体平台(例如,连接到Twitter账户的博客网站)是如何连接或附属的,我们使用计算社交网络分析结合从网络取证工具提取的元数据,全面了解整个宣传运动的协调。


为了进行社交网络分析,我们使用NodeXL和焦点结构分析(http://www.merjek.com)。Sen等人进行了焦点结构分析。在大型网络中发现一组有影响力的个人。这些个人是相互联系的,可能不是最具影响力的个人,但通过共同行动,他们形成了一个令人信服的力量。这种做法在许多现实世界中受到考验,包括沙特阿拉伯妇女有权在Twitter上推动运动,以及2014年乌克兰危机,当时总统维克托·亚努科维奇(ViktorYanukovych)拒绝了一项关于进一步融入欧洲联盟的协议,我们使用Blogtrackers(http://btracker.host.ualr.edu/)。


这项研究的影响不仅对科学界有意义,而且对当局也很有意义,因为这些不正常的团体对公共安全和国家安全构成不可忽视的关切;例如,在许多情况下,这些团体要求公民不服从、有计划的抗议或针对具体事件采取直接行动。

因此,在本研究中,我们建议寻求以下问题的答案,进一步帮助我们分析网络宣传运动:

1.这些团体是否使用博客来传播宣传?我们如何识别那些博客?

2.谁是网络中最具协调/影响力的团体?哪些节点使用它们的社交关系来传播消息是最具交际能力还是最强大的?团队中个人最常用的平台是什么?

3.宣传如何引起社区的共鸣?公众舆论最关心的是什么?什么是顶级tweet、顶级hashtag等等。?

4.谁是网络中最重要的个人(活跃的用户,网络中大多数通信节点)?我们能确定网络战役中有影响力的叙述吗?

5.我们能否识别宣传运动中使用的协调机器人,并研究它们的内容和行为?


为寻求上述问题的答案,我们在本章中作出以下贡献:

• 我们设计了社会网络分析和社会网络取证方法,研究个人在网络宣传运动中的社会技术行为,以开发准备用于网络操作的检测工具。

•我们加深了对社交媒体的理解,认为社交媒体是推动一个团体开展宣传具体议程的活动的推动者。

•我们得以在Twitter和博客上识别有影响力的用户,并找到它们之间的关系,以研究各种社交媒体平台在网络宣传运动期间进行战略信息演习时的交叉影响。


本文其余部分安排如下。一、研究背景。二、介绍研究方法,其中包括用于研究网络宣传运动的两个数据集,每种数据集采用的方法不同。三、作者开发的Blogtrackers工具所做的分析。四、检验方法的有效性。五、总结可能的研究方向。


二、研究背景

1、网络取证

在过去35年中,数字取证工具已经从主要由执法机构使用的简单工具演变为侦查和解决公司欺诈的重要工具,网络取证工具不是一种新型工具,但随着时间的推移,它们正在演变,以拥有更多的能力,更多地接触受众(调查人员或公共用户),以及通过使用每个工具获得的数据的类型和数量。网络取证工具可以追溯到1980年代初,当时这些工具主要被政府机构使用,例如加拿大皇家骑警(RCMP)和美国国内税务局(IRS),并且用汇编语言或C语言编写,能力有限,受欢迎程度较低。随着时间的推移,这些工具变得越来越复杂,在20世纪80年代中期,这些工具能够识别文件类型以及检索丢失或删除的文件,例如,Norton XtreeGold DiskEdit。在20世纪90年代,这些工具越来越流行,也越来越强大;例如,它们可以恢复被删除的文件和删除文件的片段,如专家证人(Expert Witness)和 Encase,如今,公众可以使用许多工具,使它们能够收集网络取证数据并以易于理解的方式将其可视化,例如:Maltego工具(https://www.maltego.com/)。


数据恢复是网络取证领域广泛使用的术语,意思是“基于文件格式的分析识别和恢复文件”,数据恢复数字取证可在解决数字犯罪方面发挥重要作用。根据Nadeem等人关于磁盘区域数字调查或计算机取证相关文章的文献综述,需要做更多的研究,以改进数据恢复技术,从受损或损坏的数据资源中检索重要数据和证据,尽管取证领域对数据雕刻有着很大的研究重点,但这与我们的研究工作并不完全相关,因为我们不是从磁盘或设备收集法证数据,而是使用法证工具(即Maltego)和技术(例如网站的唯一标识符、电子邮件地址或IP地址等)收集元数据。


社交网络取证工具以许多不同的方式收集数据,例如,通过使用社交网络API爬虫、从本地网络浏览器缓存提取工件、嗅探未加密的Wi-Fis(活动攻击)或利用对LAN的ARP欺骗,或者结合传统爬虫组件(中间攻击中的朋友)使用社交网络的第三方扩展,可以使用的另一调查工具是钩入诸如Facebook或博客之类的社交媒体的API,并收集诸如时间戳之类的博客条目或Facebook的元数据,关联、IP地址、位置或电子邮件地址。从安装在智能手机上的社交媒体应用程序获取网络取证证据。Noora等人的研究正在测试通过这些应用进行的活动是否存储在设备的内部存储器中。他们使用了三个主要的社交媒体应用程序,即Facebook、Twitter和MySpace,以及三种设备类型,即iPhone、黑莓和Android。结果表明,黑莓设备不存储任何可以通过数字取证工具检索的信息,而iPhone和Android手机则存储大量可以检索的宝贵数据。利用Facebook聊天在计算机硬盘上恢复数据,Markus等人介绍了从社交网络网站(例如Facebook)获取/收集/恢复数据的新方法。他们设计了一个混合系统,该系统基于社交网络的一个定制附加组件和一个网络爬行组件。他们的系统能够刻划“社会快照”,其定义为目标用户的所有简档信息,例如,用户数据、消息、照片和相关的元数据,例如,内部时间戳和唯一标识符,在我们的研究中,我们不是在创建从社交网络收集取证数据的工具;而是使用由Paterva开发的名为Maltego的开源工具。Maltego是收集开源情报(OSINT)和法证数据的开源工具。该工具提供了用于从开源发现数据的转换库。它有助于分析群组、网站以及联机服务如Facebook、Flickr和Twitter之间的真实世界联系。它还提供了以适合链路分析的图形格式提取和可视化结果的能力。


2、信息作战机器人的实证观察与趋势

人们普遍认为,在网络宣传运动中,机器人/僵尸网络/自动社会行为者(ASA)也与人类行为者一道参与宣传工作。因此,必须研究机器人在危机期间作为强有力的宣传传播工具的类型、类别和战略。早先的一项研究报告说,在叙利亚内战起义期间,用机器人来传播宣传。作者研究了“叙利亚社会僵尸”或 SSB,检查Twitter的内容,并根据发布的内容、暂停之前的时间、僵尸的活动类型(Twitter或转发)对僵尸进行分类。这项研究将机器人分为以下类型:

·核心机器人有三个类别:
1.短命的机器人:转发了很多但很少发布推文,并且持续了不到6周的时间,然后Twitter暂停了该帐户。
2.长期存在的机器人:经常转发,但很少发推文,它们持续了25周以上,然后Twitter暂停了账号。
3.文章生成机器人:经常发推文,但很少转发。


·外围机器人:

参与传播过程的账户。他们的任务是转发核心机器人生成的一条或多条推文。
我们做了进一步的调查和研究,以确定这些机器人使用的类型和策略,并对它们进行分类。朝着这个方向,我们研究了用于传播ISIL斩首视频相关宣传的机器人(即埃及科普特人、阿拉伯-以色列“间谍”和埃塞俄比亚基督徒)。我们还研究了克里米亚水资源危机和龙骑兵演习期间用于传播宣传的机器人。除了单模网络之外,我们还研究了两种不同的二部网络,即用户-文本和用户-URL,即通信网络(tweet、reweet和提及网络)和社交网络(朋友/关注者网络)。这些研究的结果如下:
·所有情况下都大量使用僵尸网络进行宣传。
·推文主要包含可能与事件相关也可能与事件无关的标签或关键字,以及指向与宣传相关的资源(例如,视频、图像)的URL。
·如果账户具有以下特征,则将其标识为机器人:
-推文内容包含较高频率的URL。
-帐户名称非常相似。
-在短时间内发了很多推文。
-这些推文包含人类用户通常不会发布的字符。


我们还能够确定机器人被用来传播其宣传的一些信息机动战略,诸如:

·误导:魔术师使用的一种技巧,让观众在表演魔术时看向别处。例如,机器人会在推特上发布其他地方正在发生的无关新闻,但仍然会提到一个与危机有关的标签。
·烟雾屏蔽:机器人会提到俄罗斯或乌克兰等,但不一定与危机有关。叙利亚社会机器人(SSB)也使用了类似的技术来提高人们对叙利亚内战的认识。
·限制话题:在公开论坛中,在讨论的“话题”中改变话题。
·标签锁定:战略性地将无关但流行或流行的标签联系起来,以瞄准更广泛的受众,或者在某些情况下是非常特定的受众。


3、社交媒体的影响

博客通过使用半真相或扭曲事实来影响群众,为异常组织提供了丰富的媒体来构建和组织宣传。另一方面,Twitter受到其字符数(即140个字符)的限制,并且仅被用作传播介质或通信网络。取而代之的是,Twitter被用作引导其受众(即帐户的追随者)访问量的博客的驱动工具,博客作者在博客站点上对在社交媒体上进行构架和传播宣传的词语没有任何限制。了解Twitter上的信息传播网络很重要,但是了解博客帖子或博客作者所产生的活动更重要。 


确定有影响力的人是一个备受研究的问题。已经进行了许多研究来确定博客作者在社区中的影响力。计算博客作者影响力的基本思想是汇总其各个博客帖子的影响力。如果博客文章具有大量的链接和评论,则表明博客圈对该博客文章感兴趣。内链接和评论对帖子的影响有正面贡献,而博客帖子的外链接对影响有负面影响。因此,一种计算影响力的方法是通过博客文章的链接,评论和链接的加权线性方程式。另一种方法是使用Google页面排名的修改来识别有影响力的帖子以及博客。


三、方法论

在对反北约和反TRJE 2015网络宣传运动的实证研究中,我们研究了从两个不同来源收集的两类数据集,即通过NodeXL使用TwitterAPI收集的数据集和Scraawl收集的数据集。这两条分析途径相互关联,以便全面了解针对TRJE 2015演习和北约的网络宣传运动。图1描述了我们在本研究中遵循的方法的流程图。

图1研究反北约宣传运动的方法

数据集1:以反北约叙事著称的历史叛逆群体的Twitter账号

数据集描述

我们确定了六个群体,他们在社交媒体上宣传他们的信息,邀请人们采取行动反对北约和TRJE 2015演习。初步确定了12个博客站点,这些群体用来编写针对TRJE 2015演习的叙述。我们还能够识别Twitter句柄,用来引导观众从Twitter到他们的博客。我们确定了六个小组使用的最初九个Twitter账户。我们通过NodeXL使用TwitterAPI来收集所有九个Twitter账户的回复、推特、提及、朋友和追随者的网络,以及任何与它们连接的人在UTC时间8/3/2014 4:51:47 PM-9/12/2015 3:22:24 AMUTC期间的上述关系之一。我们获得的数据集文件包含10805个朋友/追随者、68个回复、654个推文、1365个提及、9129个总节点和10, 824个总边缘(见图2)。

图2 Twitter社交网络中9名用户的网络法证分析。识别的九个用户用红色指示,所有其他用户用灰色指示。朋友和追随者的边缘用黑色描绘,提及关系用紫色描绘,回复用绿色描绘,推特用灰色描绘。


基于网络取证方法的元数据提取。
通过使用唯一标识符,例如,Maltego获得的Google Analytics ID,我们可以推断博客站点之间的联系。Maltego是一个开源的情报和取证应用程序。它在挖掘和收集信息以及以易于理解的格式表示这些信息方面节省了大量时间。Google Analytics是一个在线分析工具,允许网站所有者收集网站访问者的统计数据,如浏览器、操作系统、国家和其他元数据。在一个Google Analytics账户下可以管理多个站点。该账户有一个唯一的识别“UA”号码,该号码通常嵌入网站的HTML代码中。使用此代码可以识别在同一UA号下管理的其他博客站点。“连线”杂志在2011年报道了这种方法,FBI网络犯罪专家迈克尔·巴泽尔(Michael Bazzell)在题为“开源情报技术”(Open Source Intelligence Techniques)的书中也引用了这一方法。


如前所述,我们使用12个博客站点的种子集来发现使用Maltego连接到它们的其他博客。我们以滚雪球的方式使用Maltego发现了其他博客网站。我们能够识别出另外9个通过相同的谷歌分析ID连接到初始种子博客的博客。这些新确定的网站在不同的门户网站上发布了相同的内容,有时还会以不同的语言发布。例如,用英语编写的网站可能也有另一个相同的版本,但用该地区的另一种语言编写。这样的博客也被称为桥牌博客。我们进一步收集了所有网站的IP地址、网站所有者姓名、电子邮件地址、电话号码和位置。我们得到了三个基于地理位置的网站集群(见图3)。这些群集有助于了解博客网站的原创性,这将帮助分析师了解特定博客网站正在推动的宣传。第一类包括1个位于俄罗斯的网站,第二类有8个位于美国的网站,第三类有12个博客网站,分布在西班牙、开曼群岛、英国和德国。结果如图3所示。从最初的12个博客站点中,我们获得了21个博客站点、6个位置和15个IP地址。我们在这项研究中发现的所有博客网站都被爬行了,它们的数据存储在博客追踪器工具可以访问和分析的数据库中。

图3使用Maltego确定了其他博客网站。找到所有博客的IP地址及其位置给了我们三个集群。集群1表示位于俄罗斯的1个博客站点。集群2表示位于美国的8个博客站点。集群3表示位于西班牙,开曼群岛,英国和德国的16个博客网站。


应用社会网络分析识别有影响力的信息参与者
在使用网络取证工具(Maltego)和方法(唯一标识符)找到该组织用来传播宣传的其他相关博客网站后,我们应用社交网络分析,根据活动类型找出整个图表中最重要的节点。我们还想知道练习期间使用最多的标签。这可以帮助锁定跟随该标签的受众(如果有必要将反叙事推送给相同的受众);图表中推特最多的URL,它提供了关于公众舆论和关注的概念;以及整个图表中使用最多的域,它有助于知道分析的重点应该指向哪里,或者使用了哪些其他媒体平台(见表1)。使用NodeXL,我们能够回答所有上述问题,例如,在TRJE 2015演习期间使用的十大标签中有两个是#YoConvoco(使用谷歌翻译服务将英文翻译为“I invite”)和#SinMordazas(使用谷歌翻译服务将英语翻译为“No gags”)。这两个标签指的是一场要求人们进行抗议和公民抵抗或公民抗命的运动。此外,对收集到的数据集中分享最多的前十个URL进行调查后发现,这些URL是一些网站的链接,这些网站从所得税申报单上询问人们对战争军事开支的财政反对意见。探索顶级域名还可以帮助我们找到更多可以爬行的博客,这些博客散布反对TRJE2015的宣传。


表1该组织用来传播宣传的最常用的URL、域名和标签

应用焦点结构分析(FSA)识别对网络宣传活动有影响力的个人群体。
应用焦点结构分析(FSA)识别影响网络宣传运动的强大个人群体为了进一步研究网络宣传运动,我们应用焦点结构分析(FSA)方法来找到有影响力的节点组。为了找到网络中最具影响力的节点组,我们将数据文件(9129个节点和10,824个唯一边缘)划分为两种类型的网络,即“社交网络”(源自朋友和追随者的关系)和“通信网络”(源自回复) 并提到关系。我们在这两个网络上运行FSA方法,以发现社区中最具影响力的节点集或信息播种者。

图-4Twitter社交网络中的9个用户,成员组成了一个最重要的协调结构,用红色表示

在社交网络上运行焦点结构分析(FSA)产生了一个具有七个节点的焦点结构(见图4)。实际上,这七个节点是在我们开始的九个反北约种子节点中,并且非常紧密地交织在一起(即它们之间相互影响)。这表明这七个节点之间有着强有力的协调结构,这对开展宣传活动至关重要。

在通信网络上运行焦点结构分析(FSA)导致总共22个节点的3个焦点结构(见图5)。在社交网络焦点结构中找到的同七个账户(在9个种子账户中)分布在这三个焦点结构中。这给予这七个帐户比网络中的其他节点更多的功率/影响,因为它们存在于两个网络的焦点结构中,即,它们被找到通信和社交网络。其余的节点(即,在所述通信网络的这3个焦点结构中发现的另外的15个账户是新节点)。这些都是重要的,因为他们要么是领导者,要么是开展宣传运动的关键团体的一部分。

图5通信网络(提及和回复网络)。焦点结构分析方法有助于识别高度复杂的配位结构,该配位结构标记在左上图的红色圆圈内。当放大此结构(显示在右下角)时,识别出3个焦点结构,有22个节点。节点的颜色表示焦点结构的颜色。


对数据集1的分析综述

•我们收集了Twitter网络的一个“AgentX Agent”网络(既是“通信网络”,也是“社交网络”),由拥有9个Twitter账户的六个种子异常群体组成。然后,我们分析这个网络以发现谁是代理商/帐户/节点,转发,或者提及最多。我们还发现了最常用的hashtag、图中最tweetedURL,以及整个图中使用最多的域。这充当了节点级别的分析。

• 我们使用网络取证工具和技术发现与种子博客相关的其他博客站点之间的隐藏关系。

• 应用焦点结构分析(FocalStructure Analysis, FSA)发现协调群。这成为小组一级的分析。


数据集2:网络宣传运动中使用的反北约僵尸的Twitter账号

数据集描述

这个数据集是用Scraawl工具收集的。人们注意到,机器人被用来加速和扩大宣传运动。Scraawl工具识别大约218个机器人帐户。收集了僵尸网络的推文、提及和转发。数据收集了2015年10月8日至2015年10月11日期间的数据,共收到869 062条推文、37 042条提及、74 898条转发、308个独特用户。


应用社会网络分析识别有影响力的机器人

我们构建了两种类型的网络,即。用户-URL(双模网络,即,“Agent by Knowledge”网络,其中Agent是Twitter账户,在这种情况下,知识是包含在推文中的URL)和用户-文本(双模网络,即,“Agent by Knowledge”网络,其中Agent是Twitter账户,并且在这种情况下,知识是包括推文、转发和提及在内的整个文本收集的全部文本)和User-Text(双模网络,即“Agent by Knowledge”网络,其中Agent是Twitter账户,并且在这种情况下,知识是包括推文、转发和提及在内的整个文本收集)。对于用户URL网络,我们使用ORA NetScenes7提取前20个tweet URL、提到的URL和转发的URL。该网络使我们能够发现:
·排名前20位的网址中有很多主要是关于北约和TRJE 2015(宣传传播)。因此,应该对提及网络给予更多的关注。
·我们发现推特上排名前20的URL中有两个是有趣的URL,因为这些网站在Twitter上显示了乌克兰和俄罗斯的热门话题/标签。这表明这些机器人使用了一些工具来获取与其推文内容相关的最热门的标签,这样它们就可以接触到更广泛的受众(标签锁定)。
·在推特上排名前20位的URL中,大多数与北约或2015年TRJE无关。大多数网址都是垃圾网址;例如,赌博网站、优惠券网站、美食食谱、安卓电视应用程序或帮助用户获得追随者的土耳其网站。
·转发次数最多的20个网址与北约或2015年TRJE无关。这些网址大多来自希腊或意大利新闻网站,谈论土耳其大选。


我们使用上面标识的博客作为博客的初始种子,使用Maltego发现与它们相关/关联的其他博客。然后,所有这些博客都被抓取并提供给Blogtracker工具进行更多的分析。我们还构建了一个用户-文本网络,我们发现了以下几点:
·很多用户都在推特上发布同样的推文内容。这被认为是不寻常的行为,因为两个人几乎不可能在没有任何标点符号差异的情况下写出完全相同的文本,除非他们之前有过沟通或消息来源相同。此行为表示“克隆帐户”或“回音室”。
·我们还注意到,参与TRJE2015宣传传播的一些机器人过去也参与了其他危机,如克里米亚水声呐喊和龙骑兵演习期间传播的宣传。
·第2.2节提到的大多数战略都用于传播宣传,例如标签锁存。
·一些用户在ORA计算的节点级度量中多次排名靠前,如下所示:

–能力:检测相对于其他实体具有高或低度的实体。 

–中心性-外向度:对于任何节点,例如单个节点,出站链接是关注节点与其他节点之间的连接。例如,设想一个知识型代理网络,其中一个代理所具有的出站链接数就是它所连接的知识块数。此度量的科学名称是度数,可以在任何网络上计算。知识水平较高的个人或组织比其他人拥有更多的专业知识或与更多种类的知识相关联。

–中心性-排位度:与他人的联系数量。邻接矩阵的行总和。 

–认知差异性:衡量每对代理人具有互补知识的程度,以占总知识的百分比表示。 

–认知专长:衡量每对代理人具有互补知识的程度,表示为第一代理人知识的一小部分。 

–认知相似度:衡量每对特工对知识完全相同的程度。知识位数将每个值标准化。 

–认知相似度:衡量每对代理之间具有重叠知识的程度。–相关性:衡量每对行具有互补数据的程度,表示为总数据的百分比。 

– 相关性:衡量每对行具有互补数据的程度,表示为第一行数据的一部分。

– 相关性-专业知识::衡量每对行具有完全相同的位的程度。列数将每个值归一化。 

– 相关相似度:测量每对行具有重叠数据的程度。 

–排他性:检测与其他实体相比关系较少的实体。知识排他性高的个人或组织是指具有专门知识或与其他人很少拥有的知识类型相关的人或组织。

–完全排他性:检测具有其他实体没有联系的实体。具有完全知识排他性的个人或组织是具有专门知识或与其他人没有的知识类型相关联的人或组织。 

–排他性知识:检测具有其他代理人所不具备的知识的代理人。


这表明这些节点在网络中是多么强大。例如,我们在其他演习(例如“龙骑演习”)中识别了许多参与其他宣传运动的账户。这些节点的等级如图6所示。


图6递归的顶级Agents图表显示了在上述节点级度量中重复排名最高的Agent。显示的值是代理节点排名前三的度量的百分比


应用焦点结构分析确定影响网络宣传运动的强大机器人

我们从文本中提取所提到和转发的用户来构造一个单一模式(Agent by Agent)通信网络(边缘表示转发,并提及;注意,tweet不包括在这个网络中,因为在这种情况下它们是自循环边缘,并且在这种情况下不添加任何含义)。这导致一个包含18 987个节点和23 824个边缘的网络。然后应用焦点结构分析(FSA)算法寻找协调机器人。这导致了15个焦点结构(一个极具影响力的节点组),总共包括286个节点(见图7)。来自排名前20个节点的五个账户也在识别的焦点结构分析(FSA)中。这意味着,这些账户不仅在知识网络代理中排名第一,而且在通信网络中协调账户(这给予它们更多的重要性)。


图7不同焦点结构之间的节点分布。这里,ID=40的焦点结构分析(FSA)具有最高的节点数。ID用于区分每个焦点结构分析(FSA),并且其数量增加5

对数据集2的分析概述

• 我们创建了一个“AgentbyKnowledge”网络,以查看谁是节点/代理,谁是B节中前面提到的节点级别度量中最高的。这使我们深入了解网络中的重要节点(或宣传传播期间的活动节点)。换句话说,共享更多知识(在本例中是tweet more)的节点,或在其tweet中提及更多用户的节点比其它节点对讨论的参与率更高。而且,转发比其它节点多得多的节点是那些有兴趣向更广泛的受众传播消息的节点。这充当节点级分析。

•我们还创建了一个“Agentby Agent”通信网络,然后应用焦点结构分析发现协调组。必须了解网络中的重要/有影响/协调小组。这些节点拥有如此强大的力量;通过共同行动,它们将能够传播信息,并在宣传运动中有效。这是一个组级分析。

•正如所预期的,在“知识代理”网络中排名最高的一些节点也在焦点结构中。这使得这些节点更加重要。


四、博客数据分析与发现

数据集描述

利用前几节中提到的国民账户体系和网络法医技术,我们能够确定21个以上的博客网站,传播反对北约及其2015年TRJE演习的宣传。我们使用WebContentExtractor(可查阅http://bit. ly/luUtpes)来培训网络爬虫,以便从这些博客收集数据。爬行后,我们总共获得了15, 278个博客帖子。这些博客主要位于美国(我们也有博客位于西班牙,加拿大,俄罗斯,德国,英国和巴勒斯坦)。博客站点的位置由从Maltego获得的IP地址位置确定,或者如果作者在他的博客中明确提到他/她居住的地方。大多数博客帖子是用英文写的,而其他语文的帖子也是收集的,即西班牙文、意大利文、德文、加泰罗尼亚文、阿拉伯文、法文、巴斯克文、葡萄牙文和俄文。


利用Blogtacker进行分析

我们通过使用Blogtrackers(可在http://blogtrackers. host上查阅)生成发布频率图(如图8所示),开始探索收集的数据集。2014年8月至2015年12月。我们看到,2015年9月至2015年12月,即三叉戟联合演习(TRJE 2015)前后,这些博客的活动相对较多。

我们使用Blogtrackers生成一个关键词“anti-nato”、“tridentjoint”和“nato”的趋势图(如图9所示)。“anti-nato”的关键字趋势与图8中的张贴频率图完全一致,表明这些张贴实际上具有“anti-nato”关键字。我们还注意到,在此期间,"反北约"的趋势始终高于"北约",这表明这些博客对北约持更加消极的态度。我们还发现一些博客呼吁“反北约”的抗议和运动。


图9 Blogtrackers生成的“反北约”、“北约”和“三叉戟”的关键词趋势,描述了这些关键词在一段时间内的出现

在同一时期,我们发展了一种情绪趋势(如图10所示),证实了我们的发现;也就是说,观察到的负面情绪多于正面情绪。此外,具有负面情绪的博客数量显著多于具有正面情绪的博客。

我们还Blogtrackers进行了影响职位分析,以确定具有高影响力的职位。使用包含四个因素(即,z)的随机模型来计算帖子的影响得分。博客帖子的入站链接、出站链接、评论和口才。


图10收集博客中的情绪趋势

我们发现最有影响力的帖子来自一个用意大利语写的博客网站。翻译后,我们发现这个帖子是高度宣传的帖子。它要求人们抗议北约进行的演习。这个博客的博主使用了两种传统的宣传技巧展示为普通民众或公众,以争取对其事业或意识形态的支持)。这篇博文提到像北约演习这样的短语助长了污染,并且正在开发资源。它还将这一行动归类为领土军事化,以备战时训练。


五、 结论和未来方向

总之,社会媒体的可负担性和易用性使得它受到全球许多人的欢迎。社交媒体的使用意在用于娱乐,并充当社交环境的媒介,但偏僻的群体利用这种使用。相反,他们用它作为传播错误信息或协调网络宣传运动的有力工具,以实现战略和政治目标,影响大众思维,并引导对某些事件的行为或观点。最近的行为促使我们做更多的事、调查、研究这一现象,以及行为群体的行为。


在这项工作中,我们识别和研究了协调异常群体的行为,他们在Twitter和博客上制造了很多针对TRJE2015的网络宣传。我们利用社交网络分析、网络取证工具和网络取证技术来揭示群体之间的关系,并发现更多的群体。我们设计这些明智的方法,以帮助开发检测工具,准备部署到网络行动。我们得以在Twitter上识别有影响力的用户(他们使用Twitter作为工具来引导Twitter上的粉丝到他们的博客站点)和博客,并发现他们如何连接/关联起来,以研究各种社交媒体平台在网络宣传运动期间进行战略信息策略方面的交叉影响。上述方法构成了通过网络取证提取元数据和相关博客站点的一整套方法的极小但很有前途的样本。这套方法将有助于集中收集数据,或引导收集雪球数据,然后导致研究的下一阶段,即精简识别主要行为者或博客作者,他们是最高意见领袖和最高意见传播者。


为了今后的工作,我们计划集中注意这些团体试图传播的信息。更确切地说,我们计划对消息进行主题建模,以提取主题情感和目标情感,以进一步加强宣传提取。除此之外,由于一些在“知识代理”网络中排名第一的节点也在焦点结构中,这使得这些节点更加重要,我们计划找出这些节点的性质(即它们是机器人还是普通用户?)以及它们的特殊性,使得它们出现在两个网络中,例如,它们所做的tweet类型(例如,tweet新闻URL,或者比普通用户使用更多的hashtag)、它们最擅长的活动类型(tweet、转发、提及或回复)以及发布tweet的频率。此外,由于博客不像Twitter那样对人物的数量没有任何限制,因此它们提供了一个有利于框架叙事的平台。因此,我们计划从现代社会信息与传播系统的传播与信息科学的角度分析源自博客的宣传技术。此外,我们计划提高Blogtrackers的能力,以扩展大量的博客数据,并拥有更多的功能。


文章来源:

美国国家科学基金会(IS-1636933、IIS-1110868和ACI-1429160)、美国海军研究办公室(N000141010091、N000141410489、N0001415P1187、N000141612016、N000141612412、N00014-17-1-2605和N00014-S)美国国防高级研究计划局(W31P4Q-17-C-0059),以及小石城阿肯色大学的Jerry L. Maulden/Entergy基金。

作者:

Samer Al-Khateeb

Muhammad Nihal Hussain

Nitin Agarwal

原文PDF和机器翻译文档已上传小编知识星球