作者:探码科技, 原文链接: http://www.tanmer.com/Big-DB/433
说起大数据大家都不陌生,但何为数据采集,数据分析很多人都不够明白,本文将从数据采集的三大要点、四大步骤分展开聊,为大家解析数据采集。后面将会为大家带来采集工具的分享!
数据采集就是对互联网网页的数据(图片、文字、链接)进行爬虫抓取,把这些数据进行汇总。并按照一定规则和筛选标准进行数据归类形成数据库文件的一个过程。但在这个过程中,我们首先需要明确我们要采集的信息是什么,当你将采集的条件收集的足够精确时,那么采集的内容就越接近你想要的。
数据采集的网站大都是公开的,这类网站采集的难度较小。还有一些特殊的网站只有登录成功后才能展示详细的信息,像付费的企业查询类的天眼查之类的,为了保护数据防止爬虫采集都是上了手段的,这类网站的采集难度较大。
下面探码Dyson将为你讲解,高质量的数据采集中需要遵循三大要点和四大步骤!
采集的数据量足够大具有分析价值、数据面足够支撑分析需求。比如查看app的使用情况这一行为,我们需要采集从用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。
数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看app的使用情况”这一行为,我们需要采集用户使用的app的哪些功能、点击频率、使用时常、打的app的时间间隔等多个属性。才能使采集的结果满足我们的数据分析!
高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
只有运用好的采集方法与步骤才能使数据价值最大化!