位置导航:首页> 关于我们> 智宇博文 >如何挖掘数据价值,数据采集分析应用方案浅析

如何挖掘数据价值,数据采集分析应用方案浅析

数据的应用成为了信息化发展的新阶段,本文将从数据采集、数据清洗、数据分析及数据的可视化三个部分介绍大数据应用方案

    数据的应用成为了信息化发展的新阶段,目前热门关注的大数据、人工智能等方向研究,都离不开数据。特别是在5G通信的落地,让更多的数据应用变成了可行,催生了各种各样数据应用。那么我们来简单聊聊数据应用的几个阶段。

    一、数据采集。

    我们在做各种应用的前提是取得基础数据,数据的全面性、数据规模是后续流程的根基。所以我们的采集工作首要考虑这两方面问题,去制定采集的渠道及采集范围。

    (1)线下数据导入。传统方式数据收集,Excel手工填报,一键下发、上报、汇总,这种方式取得的数据自带审核和校验,保障数据结构统一,提升数据填报质量;

    (2)线上数据采集。线上数据采集又分为了固有接口数据推送和互联网公开信息采集。接口方式数据采集有多种多样,例如通过条码收集制造数据,条码收集数据的前提是信息可以以编码的方式表达或与预设的数据通过编码建立对应关系。条码方式可收集的数据主要包括:产品批号、物料批号、加工资源编号、运输资源编号、人员编号、异常类别、异常现象、设备状态(维修、保养、故障停机等)、作业开始、作业结束等。还有传感器收集,某些行业对温度、压力、湿度等的要求有严格要求的,其相关数据来源可以增加各类传感器。采集模式主要为温度传感器、压力传感器、无线数据采集卡和PC等构成。

       还有软件接口方面的,API接口的数据获取,例如政府部门的一些数据,身份信息,企业信息等,可以通过固有接口进行采集,获取企业注册信息,经营范围、注册资金、法人代表,股东信息等内容。

       还有就是互联网开放数据的采集,例如资讯信息、社交信息、电商购物评论等信息,对于这类信息的采集应用,最好是经过授权允许的。

    二、数据清洗与修复。

        初始数据的采集,通常是一些非结构化数据,也就是一些脏数据,在获取到数据后,我们需要对这些数据进行清洗、修复,将脏数据变成干净的结构化数据。数据清洗, 是整个数据分析过程中不可缺少的一个环节,清洗的结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。

        第一步:缺失值清洗

        缺失值是最常见的数据问题,处理缺失值也有很多方法,我建议按照以下四个步骤进行:

        1、确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用下图表示:

image.png

        2、去除不需要的字段:这一步很简单,直接删掉即可……但务必在清洗每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,不然删错了会追悔莫及。

        3、填充缺失内容:某些缺失值可以进行填充,方法有以下三种:

             以业务知识或经验推测填充缺失值,以同一指标的计算结果(均值、中位数、众数等)填充缺失值,以不同指标的计算结果填充缺失值,前两种方法比较好理解。关于第三种方法,举个最简单的例子:年龄字段缺失,但是有屏蔽后六位的身份证号,优先从其他渠道去修补缺失数据,如果实在是没有办法补齐,有不能空缺的情况下,进行中性填充,或者特殊填充。

        4、重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。

        

        第二步:格式内容清洗

        如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题,简单来说,格式内容问题有以下几类:

        1、时间、日期、数值、全半角等显示格式不一致。

        2、内容中有不该存在的字符。

        3、内容与该字段应有内容不符。

        格式内容问题是比较细节的问题,也是非常麻烦的问题,很多时候需要人工去检查核对,如果不处理好这些细节问题,在后续的分析工作中就很容易出现各种坑,比如跨表关联或VLOOKUP失败(多个空格导致工具认为“电视剧 碧血丹心”和“电视剧:碧血丹心”不是同一个节目)、统计值不全(数字里掺个字母当然求和时结果有问题)、模型输出失败或效果不好(数据对错列了,把日期和年龄混了,……)。


        第三步:逻辑错误清洗

        这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含以下几个步骤:

        1、去重。该步骤建议是在格式内容清洗工作完成后做,不然去重是不充分的,例如前面说到“电视剧 碧血丹心”和“电视剧:碧血丹心”不做格式清洗就会当成两个节目,去重就无法去掉。

        2、去除不合理值。例如时间2019年13月20日,收视量100000亿(估计是没看见亿的单位),这种的就要么删掉,要么按缺失值处理。这种值如何发现?涉及到具体的分析细节。

        3、修正矛盾内容。有些字段是可以互相验证的,举例:5月12日 连续剧:碧血丹心(12),5月13日 连续剧:碧血丹心(10) ,这个后面集数应该就是错的。在这种时候,需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,通过关联规律去修正。

image.png

(IP地址修正)

        逻辑错误除了以上列举的情况,还有很多未列举的情况,在实际操作中要具体分析。另外,这一步骤在之后的数据分析建模过程中有可能重复,因为即使问题很简单,也并非所有问题都能够一次找出,我们能做的是使用工具和方法,尽量减少问题出现的可能性,使分析过程更为高效和准确。


        第四步:非需求数据清洗

        这一步说起来非常简单:把不要的字段删了。但实际操作起来,有很多问题,例如:把看上去不需要但实际上对业务很重要的字段删了;某个字段觉得有用,但又没想好怎么用,不知道是否该删;一时看走眼,删错字段了。所以在实际项目实施中,如果数据量没有大到不删字段就没办法处理的程度,那么能不删的字段尽量不删。最后请勤备份数据……


        第五步:关联性验证

        如果你的数据有多个来源,那么有必要进行关联性验证。例如,电视播放日志,一个IP请求观看了A节目,在同一时间也看B节目,那么这种情况在通过关联分析后,就会发现是两个用户使用了同IP请求电视节目,在统计用户IP的时候,需要调整或去除数据。

        严格意义上来说,这已经脱离数据清洗的范畴了,而且关联数据变动在数据库模型中就应该涉及。多个来源的数据整合是非常复杂的工作,一定要注意数据之间的关联性,尽量在分析过程中不要出现数据之间互相矛盾,而你却毫无察觉的情况。

 

    三、数据分析与价值挖掘。

     “大数据(BigData)”是近来很流行的一个词汇,当我们无法通过人工来发现一些事物变化和规律时,通过大数据的建模分析可以给我们带来更直观的决策依据。 通过前面的两步工作,我们可以制定策略对数据进行系统分析,找出规律或者发现潜在问题,挖掘出数据的价值,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯的决策流程。

        这个过程就是以需求目标为导向的建模及算法应用。决策树、贝叶斯方法、神经网络等,将数据通过合适的策略进行价值挖掘,为决策者提供数据参考。


    四、数据可视呈现。

        数据的可视化是整个数据应用的最后一步,也是比较简单的一步,但是不可缺少,我们把海量的数据分析结果通过柱状图、线形图、饼状图等图表形式展现出来,将纷繁复杂的数据通过视觉的方式变得易于理解。image.png


更多的大数据采集与分析解决方案,请联系智宇软件官方,我们将为您提供针对性的数据应用方案。

【收藏】 【打印文章】 【关闭页面】