Google Play Store Apps数据描述和分析(一)
数据来源:
https://www.kaggle.com/lava18/google-play-store-apps
其中有两个数据集:
一)Google Play Store Apps 关于APP的各个分类;
二)对APP的评论;
本篇只使用了第一个数据集。
数据集总共有10841条数据,总共13个字段:
1. App:App名字
2. Category:App类别
3. Rating:截止数据获取时的评分
4. Reviews:截止数据获取时的评论数
5. Size:App安装包大小
6. Installs:截止数据获取时下载/安装App的用户数
7. Type :付费or免费
8. Price:价格
9. Content Rating:内容分级,适用于:儿童/21+/成人
10. Genres:类型,一个App有可能属于多种类别
11. Last Updated:最新更新时间
12. Current Ver:最新版本
13. Android Ver:要求的Android版本
希望从该数据集中得到到哪些描述统计信息:
1:价格的上界、下界、中位数、下四分位数、和上四分位数分别是多少?
2:什么类别的App评论数最多?
3:更新时间的分布图,是否属于正态分布?
你想从该数据集中分析哪几个业务问题:
1. 哪种类别人们更愿意花钱下载?(打算使用Price和Category这两个类别来画箱型图)
2. 安装包的大小是否和下载量有关系?(打算使用Size和Installs这两列来画散点图)
3. 人们是否更愿意对自己付费购买的App进行评论?(Reviews 和Type两列数据相关性)
4. 儿童/21+/成人,这三种类别,分别喜欢的类型是什么?(Content Rating 和Genres两列相关性)
5. 当有新版本时,人们是否愿意第一时间更新?(Installs和Current Ver两列数据相关性)