Python爬虫实战(1)requests爬取豆瓣电影TOP250
爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter Notebook\Python 3.0
涉及的库:requests\lxml\pandas\matplotlib\numpy
蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。
蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。
Node.js如何爬取豆瓣数据实例分享
一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远。众所周知,vue-cli基于webpack,而webpack基于node,对node不了解,谈什么了解webpack。所以就自己给自己出了一道题,爬取豆瓣数据,目前还处于初级阶段。今天就浅谈爬取到豆瓣的数据,再另一个页面用自己的方式展现,后续会跟进。
1、需要解决的问题
搭建服务
怎么处理爬到的数据
怎么自动打开默认浏览器
2、搭建服务
搭建服务有好几种方式,一开始我用的http,但是http有个弊端就是不能解析https协议的url,所以就用了express,解析https协议的网址我用了request包,豆瓣的网址是https的,
今天爬取的是https://movie.douban.com/chart这个网址;如下图,我要获取的有三个部分,图片、电影名字、电影链接.
3、怎么处理爬到的数据
我们用request爬到的数据,怎么处理呢?cheerio包可以让我们像Jq那样处理爬到的html数据。
①、首先解析数据,取到爬取网页的html数据;
②、然后利用cheerio包操作爬到的数据,取到你想要的数据。
③、取到数据,创建html,输出到页面。如下图,我用的字符串拼接,办法有点笨,还没有找到更好的办法。
4、怎么自动打开默认浏览器
不知道你有没有看vue-cli中webpack的配置,自动打开浏览器,vue-cli用的opn包.
这个包用起来很方便,引入包,直接调用opn(url)即可;
5、展示
如何用Python做爬虫
1)首先你要明白爬虫怎样工作。 想象你是一只蜘蛛,现在你被放到了互联“网”上。那么,你需要把所有的网页都看一遍。怎么办呢?没问题呀,你就随便从某个地方开始,比如说人民日报的首页,这个叫initial pages,用$表示吧。 在人民日报的首页,你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了,这样你就已经爬完了俩页面(首页和国内新闻)!暂且不用管爬下来的页面怎么处理的,你就想象你把这个页面完完整整抄成了个html放到了你身上。 突然你发现, 在国内新闻这个页面上,有一个链接链回“首页”。作为一只聪明的蜘蛛,你肯定知道你不用爬回去的吧,因为你已经看过了啊。所以,你【纪录片】10部好看又震慑人心的经典纪录片(豆瓣8.5+)
说起纪录片,真的只有震撼,震惊可以形容了,国之强大,让我真的太震撼了,推荐几部给你看看,希望你喜欢、
《我在故宫六百年》
纪录片聚焦古建修缮保护,记录宫墙之内悉心呵护故宫的匠人,展现宫墙之外的天下人与这座城池发生奇妙的关联,讲述紫禁城青春永驻的故事。
《如果国宝会说话》
纪录片没有渲染猎奇和神秘的曲折表述,也避免了高冷的学术性叙事。
《大明宫》
战火和尘埃带走了幻灭盛景,而今的人们只能从半埋泥土中的断井残垣遥想纵隔千年的盛世繁华……
《航拍中国》
本片影像将全部由航拍完成,每集选取各省市区最具代表性和观赏性的历史、人文、自然和现代景观,以空中飞行线路为线索,以故事化的叙事方式展现一个观众既熟悉又充满新鲜感的美丽中国、生态中国、文明中国。
《美丽中国》
从灯火通明的大都市,到人烟稀少的深山老林;从广阔无垠的大草原,到人迹罕至的沙漠戈壁;从长年积雪的高海拨山区到一望无际的平原;从浩瀚大地到碧海蓝天……
《复活的军团》
王者之师:秦人由西北牧场崛起,因护周有功而获封,历550年征伐统一中国。七十年代兵马俑的出土还原了秦国的神秘军队。
《风味人间》
在全球视野里审视中国美食的独特性,在历史演化过程中探究中国美食的流变,深度讨论中国人与食物的关系。这种立足于全球的视角,成就了一个多元的“美食探索纪录片”。
《河西走廊》
该片以位于中国西部的重要通道,丝绸之路的黄金段——河西走廊为讲述对象,从政治、军事、经济、文化、宗教等多角度呈现了从汉代开始直至今天,河西走廊及其连接的中国 西部 的历史,以及它对中国历史和文明进程中所发挥的独特作用。“河西走廊关乎国家经略”是贯穿全篇的主题。
《舌尖上的中国》
《舌尖上的中国》为中央电视台重点项目,共七集。主题围绕中国人对美食和生活的美好追求,用具体人物故事串联起中国各地美食生态。
《长城》
纪录片《长城:中国的故事》以长城为线索,对中华 民族从春秋战国时期到明清时期近 3000年的发展史进行了生动的描述, 对农耕民族和游牧民族的纷争、融 合,最终实现统一的历史进程进行了 详细刻画。
链接:https://pan.baidu.com/s/1TzAztR9XicHbE5-ZmUQ0Sw
?pwd=1234 提取码:1234