新闻是有分量的

葡京老虎机官网(5)

2019-05-01 10:34栏目:新闻

另外,潜在分布分析法也为每个主题间的元素构成提供了分析工具。这样可以分析哪个主题在文中更占主导地位,哪些又没那么重要。这个技术也因此对需要在大量新闻报导去挖掘框架大有裨益。由于其优势,主题建模潜在分布分析法也逐步在新闻分析中有所应用。比较方法学研究发现,它与定性的文本分析相兼容,比其他一些算法研究技术更可靠。

在我们的研究中,我们把印度语料库和中国语料库分成了年度区间,以便能够跟踪每个语料库中不同主题的逐年演变。主题模型法是通过Python软件来进行实际操作的。Python的主题建模发模块包含了省略区分词(如is/are,the/a等)。用“genism”软件包分析印度语料库,用“jieba”软件包分析汉语语料库,解决了汉语的分词和文本分割问题。用于主题建模的Python模块包括让程序忽略的停止字(如“is/are”和“The /a”)。我们还排除了占整个语料库10%以上的单词,以确保主题中的关键词不太通用。

印度Aadhaar的新闻报道

Aadhaar在印度新闻语料库中出现了一个五主题模型(见表1),其中的两个主题在前几年非常盛行,我们将它标识为“生物识别数据”和“商业利益”(见图1)。生物识别数据有着包括“虹膜”和“指纹”之类的关键词,也有“收集”,这是指政府将在Aadhaar下收集的个人数据类型。这个主题还包括“国家登记人口”(npr),“登记员”,“人口普查”和“登记”这些关键词来表示在何处和怎么来进行数据收集和储存。例如,一篇文章标题为《2011年人口普查期间收集指纹识别或虹膜扫描的生物身份识别系统(UID)项目》的文章报道,政府将在2011年进行常规人口普查时开始收集公民的指纹和虹膜。本主题中的另一个关键词,内阁,是指正在为收集生物识别数据而制定立法框架的联邦部长内阁。总的来说,这个主题主要关注什么样的生物识别数据会被收集,如何收集和存储,以及支持这一过程的法律和立法框架。

点击查看大图

商业利益主题的关键词包括“商业”,“客户”,“付款”,“交易”和“税收”。此外,关键词“rbi”指的是作为印度联邦央行的印度储备银行,“kyc”指的是了解你的客户——一项要求银行和其他金融机构掌握客户个人信息的规定。这个主题主要分析商业企业是怎么受益于Aadhaar的。有几篇报道提及,Aadhaar可以让他们的业务更容易地满足KYC审查。也有其他报道认为这会简化付款、交易乃至征税的手续。有很多的报导谈及了印度身份证管理局(UIDAI),负责监督项目的政府机构,正与企业密切合作来推动数据收集。

2011年,第三个主题——“行政流程”——成为主导,关键词包括“行政”、“警察”、“邮政”、“办公室”、“登记”、“表格”、“消费者”和“雇员”。这反映了新闻舆论关注点的转变,从单纯的数据收集和立法框架设计转变为Aadhaar体系的实施细节。这段时间的文章经常会报导如何对市民们开展数据收集,行政机构例如警局和邮局又是如何从中提高运作效率的。据一篇文章报道,“目前,印度首都新德里有14家邮局参与了Aadhaar的公民登记工作,到月底将增加到70家”,印度邮政总局局长Rameshwari Handa在周四说。

不过另外一个主题,“公共福利”在2012年时成为了新的主导话题。关键词包括“公共分配体系”(PDS)、“直接福利转移”(dbt)、“食物”、“cylinders”、“转账”、“支付”、“付款”,这个主题关注的是普通人,特别是穷人,如何从Aadhaar中受益。不少文章谈论到政府是怎么绕过中间机构,直接向公众提供补贴和公共服务的,从而减少腐败现象。有篇报道提到,Aadhaar相关的应用会作用于补贴支付、农村就业计划(MNREGA)的补贴,PDS的物流配送费用,奖学金支付等等。“PDS”是指印度联邦政府通过公共配送体系向边远地区运输物资,从而让群众们能够用补贴价格到当地经销商购买食物和其他一些必需品。几十年来,这一体系一直受到一些问题的困扰,比如像中介从粮食中抽佣又或者是经销商收取不合理费用。媒体认为,Aadhaar让政府得以直接将补贴输送给终端受益人,从而规避掉这些问题。关键词“直接福利转移”是2013年启动的另一个项目,让政府补贴能够直接转给有需要的群众。