摘 要:随着互联网的快速发展,在“互联网+”的时态下,大数据的挖掘和分析已成为业界和学术界研究的热点。大数据挖掘可以挖掘先前未知且潜在有用的信息样型或规则,进而转化为有价值的信息或知识,帮助决策者迅速做出适当决策。巧妇难为无米之炊,进行大数据挖掘之前,首先应该获取数据,目前使用Python爬虫技术是使用最广泛的方法之一,可以成功获取互联网上的大数据。为了帮助用户进行影片选择,本文主要基于Python的Scrapy框架,设计并实现对豆瓣电影网上海量影视数据的采集,清洗,保存到本地。并用Pandas,Numpy库对影评进行处理,使用WordCloud对处理的影评进行词云展示,让用户对电影有一个认知。用Matplotlib、Pygal展示口碑+人气电影。
关键词:Python Scrapy WordCloud Matplotlib Pygal
目 录
目录