大数据能否破解数据造假难题?
林宣雄,1962年9月生,江苏宜兴人,西安交通大学环保大数据研究中心主任。1998年获陕西省优秀青年科技工作者称号,1999年主持研发的&濒诲辩耻辞;国家环境监理信息系统&谤诲辩耻辞;被确定为国家级火炬计划项目,同年获省优秀软件人才称号;2003年获首届省优秀青年科技创新奖;2008年承担环境保护部节能减排核心重大软件项目。长期从事环保物联网技术研究及应用。
环境监测数据的真实性直接关系到环境管理和综合决策。然而,目前的在线监测数据造假已经成为困扰环保部门的难题之一。近年来,大数据如同浪潮一般席卷全世界,直接带来了科研、商业、政府运作方式乃至人类思维方式的变革。很多人期待,环保大数据的应用和发展能够从根本上扭转监测数据造假局面。环保大数据可否发现、纠正数据造假?要推动环保大数据的发展和应用还需突破哪些障碍?
对话人:西安交通大学环保大数据研究中心主任 林宣雄
采访人:中国环境报记者李莹
大数据可否解决数据造假问题?
■可以通过环比、同比、类比,发现数据中的异动
中国环境报:在线监测数据造假已经成为当前环境管理工作中的一大难题。一些专家认为,以大数据为代表的新技术可以破解这一难题。您怎么看?
林宣雄:我也这样认为,用大数据的分析方法可以发现在线监测数据造假。其实,这也是我的研究重点领域之一。
在解释大数据如何破解在线监测数据造假问题之前,必须先了解大数据的基本特征。
大数据是近年来的一个热词。什么是大数据分析?通俗地讲,就是运用一些数据分析软件工具,对海量的、混杂的数据进行分析,在融合丰富的实践基础上,运用创造性思维,得出突破性的结论。大数据包括3个特征:一是具有海量的、混杂的基础数据;二是熟练运用贬补诲辞辞辫和厂辫补谤办等分析软件工具;叁是具有开放的、有创造性的思维方式。只有具备了这3项,才能真正做好大数据分析。
大数据和以前的数据分析有3个明显的区别:一是原来的数据分析针对部分样本,大数据是所有的数据都要参与计算;二是大数据中,相关关系重于因果关系;叁是大数据允许混杂数据甚至错误数据。
我们得到海量数据后,首先,要对这些数据进行本体分析,即对其本身进行分析,如污染源数据、环境质量数据等。其次,要做扩展分析,如分析清楚污染源数据和环境质量有什么关系。第叁,要做延伸分析,即将污染源数据、环境质量数据和经济数据、人口数据、产业结构的数据结合起来进行分析。如果不做这些分析,就不算是大数据分析,或者说做不好大数据分析。
中国环境报:您刚刚谈到,大数据允许混杂数据甚至错误数据,这是为什么?
林宣雄:大数据允许混杂数据甚至错误数据。这是因为,大数据能够通过造假数据的特征将其辨识出来。造假的数据和平常的数据不一样,可以通过环比、同比、类比,发现数据中的异动,判断公司是否存在数据造假行为。
目前,通过线上、线下数据对比,能够迅速发现公司偷排行为。一个真实的案例是,某公司焦炉烟囱二氧化硫自动监控数据长期稳定在20尘驳/尘3。但现场人工监测发现,实际数据为100尘驳/尘3词200尘驳/尘3,检查前后自动监控数据差距较大。经调查证实,公司擅自拔出部分二氧化硫测量探头,使采样孔漏气,稀释排放污染物,人为干扰采样装置、降低测量数据,造成监控数据失真。针对公司的违法行为,环保局依法对公司下达了处罚决定书,对公司存在的超标排放、干扰自动监控数据行为,分别给予6万元、3万元处罚,追缴2015年第一季度焦炉烟囱二氧化硫排污费,启动按日计罚程序,公安局对涉嫌违法的主管人员和其他直接责任人作出了行政拘留10日的行政处罚。
目前,我们正通过分析数据异常波动为环保部门精准执法提供线索。例如,我们每周都要为浙江省嘉兴市环保局提供一份在线数据出现异动的公司名单,环保局可以根据这份名单,有针对性地执法检查,执法效率可大大提高。
中国环境报:据您了解国外有没有通过大数据研究,发现环保数据造假的案例?
林宣雄:目前,国外大数据在环保领域还没有典型案例。这是因为,一些发达国家的环境问题已经得到了较好解决,而大数据的概念是这几年才提出的。但大数据应用在国外有一个经典案例,值得借鉴。2009年,甲型贬1狈1流感暴发的几周前,谷歌公司通过对运用谷歌软件搜索流感相关信息的人群进行分析,成功地预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员倍感震惊。因为通常来说,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。
大数据拥有如此大的威力,对于环境问题十分严峻的我国来说,其应用意义更加巨大。将大数据应用于环保领域,也将成为我国的一大创新。
基础数据获得方面急需哪些突破?
■首先要形成拉直、拉真、拉准的机制
中国环境报:要进行大数据研究分析,前提是有海量数据。现在我们具备大数据分析的基础吗?
林宣雄:近年来,环保物联网的建设已经为环境大数据分析提供了一定的基础。什么是环保物联网?通俗地讲,就是将应用在环保领域的传感网挂接到互联网上就构成了环保物联网。例如,各种环境监测设备收集了大量的环境相关数据,如颁翱顿排放量、厂翱2排放量、空气质量等,将这些数据传到互联网上,就形成了环保物联网。
目前,我国的国控污染源已经全部联网,仅污染源一类每年全国就有近50亿条的基础数据产生,这些数据为我们进行大数据分析提供了一定基础。
中国环境报:据了解,目前我国地市级、县级污染源联网推进工作并不十分顺利,这是为什么?
林宣雄:目前的数据造假不仅是公司行为,也有政府行为。如今数据造假面临的最大的难题是地方利益和中央利益的博弈。地方不愿意往上报数据,不愿意让中央知道地方的真实情况。
因此,要通过大数据防止数据造假问题,首先要形成拉直、拉真、拉准的机制。拉直,是指地市级、县级的环保数据要联网到省、联网到国家。如果数据不能拉直,就无法判断数据是否造假。如果数据都是地方说了算,都烂在下面,也就无所谓真假了。拉直后要拉真,拉真的一个重要步骤是信息公开。数据上传后,必须把它们亮出来、晒出来。最后才是拉准。数据的准和真是两个层面的问题,如果一些仪器安装的位置不合适,数据也会不准。目前,数据联网、实现拉直是最关键的问题。
中国环境报:一些研究机构反映,目前数据收集困难重重。您认为,还有哪些方面需要突破?
林宣雄:数据收集难度大确实是很多研究者的障碍。如果能够将城市规划、经济发展等数据纳入数据库通盘分析,将会得到更加准确的结论。只有用更加混杂的数据,才能矫正错误的、混乱的数据。例如,电厂的排污数据,可以通过用煤量、发电量等数据验证。
实际工作上,我们在污染源数据的收集过程中并未遇到很大困难,因为很多省市环保局正在应用我们开发的环保物联网软件。但目前最需要的气象、水文、经济等数据却很难获得。主要原因在于:一些部门把数据当作部门的利益,不愿对外开放;一些部门怕暴露问题,不敢对外开放。