收藏本站设为首页网站帮助积分奖励

易德轩网APP下载

易德轩网教学培训视频直播平台»社区 › 生活问答热议三区 › 【旅游风景】 › 爬虫去哪儿景点分析

发新帖

查看: 994|回复: 0

爬虫去哪儿景点分析

未绑定微信

发表于 2019-8-20 08:00:54 | 显示全部楼层 |阅读模式

爬取去哪儿网的旅游景点以及价格和介绍

因为是学习，所以请不要爬取正式环境去测试，因为容易被封，所以我们使用他们的测试环境测试，首先看一下域名：http://piao.qunar.com

我要爬取国内热门城市中的景点，因为爬取的数据我要保存到我的数据库中，所以我们先把数据库环境做好，直接安装mysql数据库，然后创建一个用户名并设置密码，设置密码后需要设置权限，并且设置数据库允许客户端访问，程序才可以写数据到数据库中。

设置允许远程访问并设置权限：

重载授权表：

退出mysql数据库：

如果设置只允许程序所在的机器访问把“%”换成自己的IP即可。这里设置的权限比价大，只是测试使用。
创建数据库表

首先创建的是数据库，因为介绍中有汉字所以需要utf-8

创建库后在创建表

已经了解到自己要爬取到内容，下面就根据自己爬取到内容进行分析：

首先，访问页面找到一些热点城市的代码，我们做一些标记：

就是全国热门城市，找到城市列表，分别取每个热门城市的[href]链接，然后对页面在具体分析：

如上图，所有的热门城市都在class="mp-sidebar-list"中，我们需要爬取的过程中爬取ul中的li，因为li中包含了所有城市。

查看一下执行结果：

所有的热门城市已经爬取完成，下面对于每一个城市爬取城市，景点，景点级别，景点介绍，景点价格，景点销售。分别提取出来，然后在写到数据库中。

已经找到所有的热门城市，下面针对所有的热门城市做一下分析如图：

先找出所有的热门城市，在把每个热门城市的景点都找出来，然后对于每个景点在分析，需要上面的函数调用下面的函数，在上面函数打印热门城市下调用一下这个函数：

之后后的结果：

针对每一个热门城市中的景点进行分析代码如下图：

我们需要找到的城市名称，景点名称，景点级别，景点介绍，景点价格，景点销量。需要对于每个热门城市的页面进行分析：

打印结果：

至此，爬取已经完成，下面就是把爬取的页面写到数据中,下面那完整代码贴出来。

这里需要注意的是，这里爬取的是http,https需要使用ssl模块，并且增加一句

放在定义的url前面。

如果你是新同学，长按下面二维码 - 识别图中二维码 - 关注，就可以每天一起学Python了。

回复分享到微信

发新帖

回手机版|论坛帮助|易德轩网 ( 鲁ICP备20005112号-2 )|网站地图

GMT+8, 2024-11-23 03:58

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表