大数据时代的到来,随着人们线上互动以及网络交易,用户的信息数据完全充斥着网络,个体对产品及服务的偏好可以从这些数据中完全体现出来,为商家以及平台提供了更好的发展方向。但是要人为获取数据库中的大量数据信息并且清洗数据获取有用信息,是很难进行操作的。而普通搜索引擎更不能满足人们获取这一大量数据的要求,所以网络爬虫的诞生弥补了这一缺陷。而Python这一语言,在爬虫领域独占鳌头,拥有强大高效便捷的爬虫框架,如Selenium、Scrapy、PySpider等[1],可以对程序进行有效的集中式的进行自动化数据集合采集、清洗、处理并且以视图的形式对数据进行可视化展示。
随着人民生活水平日益提高,人们对电影的需求越来越大,电影票房越来越高,而电影类型的票房统计以及变化对于制片方、演员以及观众来说都是极为重要的,其中的数据分析和可视化展示可以给各方带来不同程度的研究成果,为研究观众对电影类型偏好趋势分析提供有效的依据支撑。这对影视公司来说,能更好掌握观众的喜好变化,并对未来有更好的指导方向。
二、 国内外研究现状及发展趋势(含文献综述):
如今,国外有很多电影数据的可视化研究是基于Movielens和IMDB,比如许冰晗[5]等对电影数据进行可视化分析是使用ThemeRiver;Nemeth[4]等研究如何为用户推荐客户感兴趣的电影;Haughton[3]等把电影与演员之间的联系用网络图的方法进行可视化;Herr[2]等对大量电影进行研究调查并使用折线图来体现电影的发展。这大部分的调研都是对国外电影数据进行的调研,而国内对于这方面的研究调查十分缺稀。国内,李大舟等[6]对豆瓣网站的电影评分进行研究,从电影评分与电影类型之间的联系进行可视化展示。但忽略了对票房的研究,我认为电影评分可以恶意评分或者花钱刷分,这并不能真正体现大众对影视作品的偏好程度。而票房能表现有多少群众实实在在看过电影,所以票房才是最能体现一个电影好与坏,是否受人喜爱的最根本体现。本人此次开发的系统正是站在电影票房与电影类型的角度,对数据进行采集、清洗、归纳并数形结合,对数据进行图形的可视化展示。让用户对电影类型趋势走向有较好的把握。
三、 本课题研究方案和主要内容
电影爬虫可视化系统是基于python的爬虫技术数据采集、数据清洗、数据聚合;Echarts数据可视化的功能;基于python的Flask框架前端开发;
连接python与MySQL对数据库进行增删改查;使用pycharm和mysql进行编码实现。运行环境:python3.6.8,mysql5.7.
本课题采用模块化处理方式,对系统分功能、分模块。将系统分成:
1、 系统用户登录功能:可对个人账户进行管理,账户信息与MySQL数据库连接。
2、 系统首页展示
3、 爬取电影网页的数据展示功能:用表格的形式对电影数据信息进行排版,使用户清晰地了解各个电影的票房、评分、演员表等一系列重要信息。
4、 电影票房占比的图表展示功能:用柱状图、饼状图等展示各类型电影的占比,清晰显示年度热门、冷门的电影类型。
5、 电影票房年度榜单功能:可根据年份展示出票房最高的前几名电影。
6、 各类型电影的票房变化展示功能:根据不同类型电影分类,随年份展示此类电影票房的变化趋势。
7、 演员劳模展示功能:根据年度分类,在一年中按演员出演电影次数排名并进行可视化展示。
四、 研究目标、主要特色及工作进度:
1.研究目标:
爬取电影网页的数据并录入数据库,根据电影票房进行类比并进行可视化展示,完成基于python的电影爬虫可视化系统。
2.主要特色:
发挥python对数据收集、清洗、聚合的功能并融入Echarts将数据图形化,更直接生动展示各类型电影票房的变化趋势。有助于影视公司更好地把握大众对电影喜好变化的趋势,对热门类型电影注入资金。数据库表格之间没有太大联系,信息清晰明了,便于管理。
3.工作进度:
完成论文综述和开题报告 1月19日
完成系统 2月19日
完成论文第一稿撰写 3月10日
修改第一稿,完成第二稿 3月25日
修改第二稿,完成论文 4月8日
五、 参考文献:
[1]邱俊杰. 基于Python定向爬虫技术对微博数据可视化设计与实现[J].电脑知识与技术:学术版,2020(22):43-44.
[2] HERR B W,KE W,HARDY E,et al.Movies and Actors:Mapping the Internet Movie Database[C]//2007 11th International Conference Information Visualization (Ⅳ’ 07).New York:IEEE,2007:465-469.
[3]HAUGHTON D,MCLAUGHLIM M D,MENTZER K,et al.Movie Analytics:Visualization of the Co-Starring Network[C]//2014 IEEE 4th Symposium on Large Data Analysis and Visualization (LDAV).New York:IEEE,2014:115-116.
[4]NEMETH B,TAKACS G,PILASZY I,et al.Visualization of Movie Features in Collaborative Filtering[C]//2013 12th International Conference on Intelligent Software Methodologies,Tools and Techniques (SoMeT).New York:IEEE,2013:229-233.
[5]许冰晗,尚鸿运,马灿,等.基于Movielens电影数据的可视分析[J].计算机工程与科学,2017,39(11):2086-2094.
[6]高巍,孙盼盼,李大舟,等.基于Python爬虫的电影数据可视化分析[J].沈阳化工大学学报,2020(9):167-169.