悉尼海港大桥被君

探索悉尼郊区开设新餐厅

用python数据科学的魔力

我一直在学习IBM数据科学课程从Coursera过去几个月。在学习Python的所有基本技能和工具之后,这是最终的任务。该任务的目标是定义与我选择的城市相关的业务问题,然后通过使用它来解决它foursquare位置数据

虽然这是一项任务,但它结束E.LY类似于一个真实的问题,其中数据分析师将需要在他/她的日常工作中解决,涉及问题定义数据采集数据清洁数据分析数据可视化, 和报告形成。在整个作业中,我使用了Web爬网,缺少价值避名,Foursquare API,叶片地图和k均值聚类。

我希望您能收集信息或从此帖子中找到有用的数据。欢迎留下任何建议和评论。还可以找到详细的代码/笔记本/数据这里

1.业务问题

您正在专门从事餐馆营销的精品咨询公司。客户正在寻求开辟一个新的意大利餐馆然而,在悉尼,他不确定他的新场地最好的地理位置和营销策略。您已被分配到帮助他开发全面的营销计划。悉尼是一个充满活力的城市,全年闪耀着壮观的活动。它为其旅游景点和田园诗般的海滩而闻名。漫步在城市郊区,几乎没有找到一个干净的利基,在没有数据驱动的方法的情况下开辟了一个新的餐厅。您如何建议您的客户在使用数据科学决定他的餐厅位置?

2.数据收集/清洁

合成开始自己的餐厅等:Pizzeria,Coffeehouse,Deli,面包店,餐饮业务由...出版企业家新闻,以下组成部分被视为选择餐厅地点的关键因素:人口统计数据,交通密度,犯罪率,竞争对手和财产能力。我们可能无法在如此短的时间内解决所有这些因素,但是,可以通过使用可用的公共数据集或Web删除来解决这些考虑因素中的一些。

2.1。Wikipedia的网络爬行悉尼郊区列表

由于整个分析是基于位置的,因此我们应该考虑为悉尼的所有郊区提供详细的坐标。从nsw中找到所有郊区的地理杂志文件并不难政府网站。但是,挑战是选择悉尼地铁区内的那些郊区?在这里,我使用了Web爬网方法来废除列表维基百科使用要求美丽群组4.

此外,我还缩短了所有悉尼郊区的邮政编码列表这里使用相同的方法。经过一些修改后,我获得了以下DataFrame:

郊区邮政编码郊区_with_boundries
0 Abbotsbury New South Wales 2176 Abbotsbury
1 Abbotsford New South Wales 2046 Abbotsford
2金合欢加花园南威尔士州2763金合欢花园
3 Agnes银行新南威尔士州南艾格尼丝银行
4 Airds新南威尔士州2560航空公司

检查最终表是否是非常重要的,以查看此过程中生成的任何不正确的行是否存在。例如,“Agnes Banks”在最终表中没有邮政编码,但实际上它实际上有一个。这对以下步骤非常重要。

2.2。网络爬行悉尼人口统计和房地产按郊区的中位数

在搜索一段时间后,我找不到任何可用的人口统计数据表和所有悉尼郊区的人口中位数。我终于使用Web爬行再次获得人口数据(人口和年龄范围)领域和物业中位数数据来自房地产。这些是澳大利亚的两个受欢迎的房地产网站。您可能已经注意到用于查找给定郊区的URL结构只是域链接,郊区名称,NSW和邮政编码的组合。

URL ='https://www.domain.com.au/suburb-profile/ {} -nsw- {}'.format(郊区,邮政编码)

以下是我用于此任务的主要功能的示例:

2.3。物业中位数的缺失 - 数据估算

从网络刮擦数据时永远不会完美。没关系。重要的是,我们需要拥有自己的假设来基于不同的情况来预测缺失的值。在我的案例中,人口缺失值,年龄范围,房屋购买中位数,房屋租用中位数,单位购买中位数和单位租赁中位数。

在探索人口表表之后,我发现遗传群或年龄范围的缺失的郊区通常是远程郊区,并且具有60多个年龄范围或0种群。然后我相应地估算了所有这两种类型的缺失值。像这样:

sydney_demography_data [['年龄']] = sydney_demogum_data [['年龄']]。fillna('60 +')

物业中位数价格的情况有点复杂,如线性回归数字所示。我们在不同对之间具有完全不同的线性关系。

两个参数之间的线性回归

为了简化问题,我决定使用房屋购买中位数作为房地产能力指标。由于房屋中位数和房屋租赁中位数之间存在明显的正面关系,因此我为这两个参数建立了一个简单的线性模型。然后,该模型用于预测这两个参数的缺失值。

2.4。人口,年龄范围和房地产能力的Choropleth地图

在此阶段,我们拥有解决人口统计学和财产能力所需的数据。让我们把它们放在地图上有明确的看法。这是此任务的示例代码:

地图看起来像这样,他们可以从中下载这里

Choropleth用于年龄范围,人口和财产负担能力

2.5。用Foursquare API检索所有悉尼郊区的场地

使用最终的悉尼郊区列表,我们可以使用Foursquare API检索每个郊区的场地列表。foursquare是一个功能信息的强大数据库。你基本上只需要通过它半径限制纬度, 和纵向获取定义半径内的特定位置的场地列表。请注意,您需要注册Foursquare API以拥有自己的APIclient_id.client_secret.能够使用Foursquare的服务。它的免费版足以让这种类型的分析。试试,你会喜欢它。这是我用于此任务的函数。

3.数据分析

现在数据终于准备就绪。让我们来看看数据。正如我们在这里看到的那样,只有565个郊区返回场地。这可能是由于郊区中心的任意选择不是真正的郊区中心,我们应该找到更好的方法来定义郊区中心。但总的来说,此列表与现实密切相关。

列出名单前20个郊区的代码,其中有最多的场地数字
565.
郊区地点
0 Darlinghurst 100.
1岩石100
2 Surry Hills 89
3乌鸦巢86
4纽敦85
5 Haymarket 83.
6 Chippendale 79.
7米线点73
8 Burwood 72.
9悉尼72.
10北悉尼68
11 Dawes Point 64
12 WoollooOloo 59.
13兰德威克57
14个Enmore 57.
15米尔森点55
16 RushCutters Bay 53
17 Coogee 53.
18 Waterloo 51.
19帕丁顿51

由于我们的任务是从698个郊区拿起一些候选人,我们可能会发现首先基于其顶级常见场所群体群体的群体有用。背后的想法是找到餐馆的郊区。这种类型的郊区可以为新的建立提供稳定的客户来源。因此,我使用了这项任务的k-mean clustering:

我们发现集群2中的郊区配有餐厅,酒吧和咖啡馆。然后,我们在群集中缩小了候选郊区列表2.在此集群中,我们需要识别具有相对低的房地产价格,人口密度和中年的郊区。为了能够看到这个,让我们使用散点图人口作为x轴,House_Buy / M.作为y轴和年龄作为彩色色调。

PLT.FIGURE(FIGSIZE =(10,10))
x = sns.scatterplot(x =“人口”,y =“house_buy / m”,hue ='年龄',s = 80,
数据= sydney_demogum_data_cluster [sydney_demogum_data_cluster ['群集标签'] == 2])
散点图找到候选郊区

如散点图所示,我们可以识别有5个核查符合我们要求的郊区。他们是Chatswood,Randwick,Marrickville,Parramatta和Ryde。进一步研究了这5个郊区的餐厅概况,考虑到餐厅类型的多样性,都是兰德维克聊天脱颖而出。在给定的郊区内的不同餐厅类型可能意味着当地客户愿意尝试新事物,因此为我们的案例中的一家新餐厅提供相对易于幸存的操作环境。

----聊天----
中国餐馆4.
泰国餐厅2
寿司店2.
马来餐厅2
乌森餐厅1
日本餐厅1
伊斯帕餐厅1
三川餐厅1
葡萄牙餐厅1
饺子餐厅1
名称:111,dtype:对象
---- Marrickville ----
越南餐厅8
泰国餐厅2
快餐店1
希腊餐厅1
日本餐厅1
印度尼西亚餐厅0.
印度餐厅0.
印度中餐厅0
烤肉餐厅0
饺子餐厅0.
名称:321,DTYPE:对象
---- Parramatta ----
日本餐厅1
南印度餐厅1
海鲜餐厅1
黎巴嫩餐厅1
亚洲餐厅1.
澳大利亚餐厅1
中国餐厅1
法拉三明治餐厅0.
快餐店0
菲律宾餐厅0.
名称:402,DTYPE:对象
----兰德威克----
泰国餐厅7.
印度尼西亚餐厅2
Tapas Restaurant 2.
快餐店2
西班牙餐厅1
日本餐厅1
黎巴嫩餐厅1
墨西哥餐厅1
摩洛哥餐厅1
越南餐厅1
名称:433,DTYPE:对象
---- ryde ----
越南餐厅0
饺子餐厅0.
伊拉克餐厅0
印度尼西亚餐厅0.
印度餐厅0.
印度中餐厅0
烤肉餐厅0
希腊餐厅0.
德国餐厅0.
法国餐厅0.
名称:462,DTYPE:对象

此外,如果我们考虑这两个郊区之间的位置因素,Randwick在Chatwood上有一个明显的优势。Coogee Beach酒店距离兰德威克市中心一公里。新南威尔士大学也毗邻兰德威克,为包括国际学生提供的大型潜在客户群。最重要的是,随着新操作的悉尼轻轨,来自CBD的潜在客户只需要进一步的15-20分钟即可到达兰德威克。

4。结论

兰德威克是最喜欢的郊区,我们应该考虑打开意大利餐厅。但是,我们应该注意,这只是使用公共数据集的原始分析。我们只能解决一些重要的因素,在选择餐厅位置。例如,我们尚未考虑人口统计学组成,客户流量和停车位。这些信息可以使我们进一步了解兰德威克地区内意大利餐厅的运作可行性。然而,这种分析展示了解决现实世界问题的数据科学的魔力。

一如既往,我欢迎反馈,建设性批评,听到您的数据科学项目。我可以达成linkedin

数据分析师@canva |PHD |灵感来自数据|Junye0798.com.|意见是我自己的

Baidu
map