作者:探码科技, 原文链接: http://www.tanmer.com/blog/418
本文通过Dyson Web数据采集器实现对Betalist的网络数据爬取,并通过简单的统计分类,对近年来发布在Betalist的创业项目进行了统计分析。
目标:对https://betalist.com/markets(Betalist该网页上的数据进行分析
使用工具:Ruby & Atom
(1)网站信息的采集(command+A/command+C/command+V)到atom的页面中
(2)正则化删除前面的图标
(3)通过正则化对其进行排版的处理(换行处理)
(4)更改成为字典的形式(在英文单词前后添加引号,数字和英文)
(5)至此,成功转化为字典的形式,下一步对整个字典进行排序,获得top 30
工具:python&pycharm
(6)提取top 30 字典中的value,形成新的列表(list)
2.对数据进行可视化处理并进行分析
使用工具:python & matplotlib & pycharm
综上可得分析: