爬取 20W 猫猫数据,来了解一下喵喵~-程序员宅基地

技术标签: python  数据分析  nagios  数据挖掘  数据可视化  

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

来日绮窗前,寒梅著花未?

前言

最近知道身边有许多朋友都养了猫,于是对猫猫有点兴趣了,于是找到了一个专门交易猫猫的网站-猫猫交易网:

http://www.maomijiaoyi.com/

从此网站上爬取 20W 条猫猫交易数据,以及爬取了猫猫品种介绍的数据,以此来了解一下猫猫。

获取数据后小编从以下维度进行探索性分析:

1、猫猫都有哪些品种,词云图

2、原产地,世界地图

3、体型占比,圆环图

4、外观描述词云

5、交易猫猫分布地图

6、交易品种占比树状图

7、每种品种平均价格排名,条形图

8、浏览次数是否跟价格成正比,散点图

9、年龄分布,柱状图

10、价格是否与年龄有关,箱型图

11、价格是否与预防有关,箱型图

12、价格是否与异地运费有关,箱型图

13、价格是否与是否纯种有关,箱型图

14、价格是否与能否视频有关,箱型图

数据获取

打开猫猫交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:

但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。

品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:

爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:

以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:

滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,小编使用多进程只爬取了 20W:

当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:

由于数据,太多,小编分开爬取的,先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。

数据探索

在这之前呢,小编对猫猫的品种不是很清楚,只知道几个经常听见布偶猫,橘猫这些。

小编于是画个词云,来直观的瞅一瞅猫猫还有哪些品种:

了解了猫猫品种后,小编想知道这些品种的猫猫原产地都是来自哪里,看了看数据,除了橘猫是世界各地都有的,其他品种的猫猫大多分布在这些国家呢:

加拿大,美国,英国,古埃及,泰国,阿富汗这些国家是大多数猫猫品种们的原产地呀。

那猫猫品种的体型分布如何呢,我们一起来看看呗:

在所有品种中,大型的只有一个品种,小编把数据选出来看了看,原来是布偶猫呀,其他品种都是中小型的类型,那以后看见体型比较大的,可以先联想到布偶猫咯~

猫猫们很多品种都很可爱呀,大家一般都喜欢从什么角度形容猫猫呢:

从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;性格方面,对人友善;观看角度方面从侧面看,后面看最合适。

接下来对猫猫品种有一定了解后,一起来看看猫猫交易的数据吧~

首先来看看猫猫交易主要分布在哪些区域呢:

四川,重庆,广东是猫猫交易最多的省份呀,或许是这些省份的人更喜欢猫猫吧,当然只是小编猜的哈~

那么在交易的猫猫中,主要都是哪些品种在交易呢:

橘猫最多呀,看来之前原产地说橘猫分布在世界各地,换句话可以理解为橘猫数量最多,还是有原因的呀~

其次是咖啡猫,布偶猫,英短蓝白猫。。。。。

买猫当然还是得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握吧:

布偶猫名列前茅啊,在它之上还有一个缅因猫均价更高一些,小编不太了解这猫,不过布偶猫倒是觉得非常可爱。

这些猫猫一般猫龄是多大呢?一起来看看吧:

主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪呀,一般这种小猫咪是最可爱的时候呢。

那在这些数据中,影响猫猫价格的因素到底是哪些呢?是否存在一些因素与价格相关呢?

小编先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:

从结果上看浏览次数与价格并不存在相关性。

那时候跟猫猫年龄有关呢?通过箱型图来查看一下:

可以看到年龄与价格是相关的,是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。

在确定与年龄有关后,是否与预防针次数有关呢?

预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。

是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:

所以影响价格的因素猫猫价格的相关因素有年龄,预防次数,邮费,是否纯种,能否看猫猫视频。

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/pdcfighting/article/details/113821087

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型 例:var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型 例: var v=null;Number中:NaN -- not a number非数本身是一个数字,但是它和任何数字都不相等,代表非数,它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次,点赞2次,收藏17次。兑换码编码设计当前各个业务系统,只要涉及到产品销售,就离不开大大小小的运营活动需求,其中最普遍的就是兑换码需求,无论是线下活动或者是线上活动,都能起到良好的宣传效果。兑换码:由一系列字符组成,每一个兑换码对应系统中的一组信息,可以是优惠信息(优惠券),也可以是相关奖品信息。在实际的运营活动中,要求兑换码是唯一的,每一个兑换码对应一个优惠信息,而且需求量往往比较大(实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句 第四章 结构化程序设计 4.1 选择结构程序设计 在现实生活中,需要进行判断和选择的情况是很多的: 如果你在家,我去拜访你 如果考试不及格,要补考 如果遇到红灯,要停车等待 第四章 结构化程序设计 在现实生活中,需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明 在驱动程序中实现的ioctl函数体内,实际上是有一个switch{case}结构,每一个case对应一个命令码,做出一些相应的操作。怎么实现这些操作,这是每一个程序员自己的事情。 因为设备都是特定的,这里也没法说。关键在于怎样组织命令码,因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径 。 命令码的组织是有一些讲究的,因为我们一定要做到命令和设备是一一对应的,利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations,选择JSON界面做如下改动:1.首先把 “/usr/include”,放在最前2.查看C++路径,终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇,因未有精力写更多的入门教程,上篇已经抛出书单,有兴趣的朋友可阅读好书来成长,此系列主讲有理由爱Sqlserver的论证性文章,希望读者们看完后,可自行做出判断,Sqlserver是否真的合适自己,目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体,在Excel中,我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台(教育大脑)项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次,点赞6次,收藏4次。教育智脑)建立学校的全连接中台,对学校运营过程中的数据进行处理和标准化管理,挖掘数据的价值。能:一、原先孤立的系统聚合到一个统一的平台,实现单点登录,统一身份认证,方便管理;三、数据共享,盘活了教育大数据资源,通过对外提供数。的方式构建教育的通用服务能力平台,支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素(人、机、料、法、环、测)全面互联,数据实时。智慧校园解决方案,赋能教学、管理和服务升级,智慧教育体系,该数据平台具有以下几大功。教育大数据平台底座:教育智脑。教育大数据平台,以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次,点赞2次,收藏27次。分治法,动态规划法,贪心算法这三者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索,其思想的差异是深度优先和广度优先一:分治算法一、基本概念在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm,这是我随笔篇章的第二更,原本计划是在中秋放假期间写好的,但是放假的时候被安排写一下单例模式,做了俩机试题目,还刷了下PAT的东西,emmmmm,最主要的还是因为我浪的很开心,没空出时间来写写东西。  距离我考研结束已经快两年了,距离今年的考研还有90天左右。  趁着这个机会回忆一下青春,这一篇会写的比较有趣,好玩,纯粹是为了记录一下当年考研中发生的有趣的事。  首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式:warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑,目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程 郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法:第一是自然语言描述,第二是使用专用工具进行算法描述2、c 语言程序的结构如下:1、c 语言程序由函数组成,每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e