如何快速成为数据分析师?
说起来,我接触数据分析快一年了,还是有一些急功近利的经验。一个好的数据分析师不能很快,但零经验有捷径。
以上前提是入门,目的是达到数据分析师的门槛,顺利拿到offer,不涉及数据挖掘等高级技能。我的方法偏向互联网领域,既适用于分析师的职位,也适用于运营和产品的能力培养。在其他领域,仁者见仁。
市场上有“七周七数据库”和“七周七编程语言”。今天我们的主题是“在七周内学会成为一名数据分析师”。
是的,七周。
第 1 周:精通 Excel
如果 Excel 运行流畅数据分析师,本周可以跳过。不过由于刚入行时不知道vlookup,还是有必要说一下。
重点是理解各种函数,包括但不限于sum、count、sumif、countif、find、if、left/right、时间转换等。
Excel功能不需要全部学习,重要的是要学会搜索。也就是如何把在搜索引擎上遇到的问题描述清楚。
在我看来,掌握 vlookup 和数据透视表就足够了,它们是最具成本效益的两种技术。学习vlookup,SQL中join,Python中merge很容易理解。学习数据透视表、SQL 中的分组和 Python 中的数据透视表也是如此。
这两件事都做好了。基本上,统计10万条以内的数据并不难。 80% 的办公室白领可以秒杀他们。
Excel 是熟能生巧,找到更多练习题。还需要养成不合并单元格,不要太花哨的好习惯。表格根据原始数据的类型(sheet1)、处理后的数据(sheet2)、图表(sheet3)))进行管理。
专栏中写了三篇Excel文章。 ,比较简单,一般介绍Excel应用,可以作为职场新人的指南。
第一个数据分析-函数。主要对常用函数及对应的SQL/Python函数进行简要说明。
数据分析的第二部分——技巧。主要讲解我觉得性价比很高,提高工作效率的功能。
数据分析第三部分——实战。主要是前两篇文章的内容进行了实战,简单进行了一次数据分析。数据源使用真实爬虫数据,即5000行数据分析师岗位数据。
以下是为了更好的未来的基本和附加学习任务。
了解单元格格式,后面的数据类型包括各种timestamp、date、string、int、bigint、char、factor、float等
了解数组以及如何使用它们(excel数组很难使用),Python和R也会涉及到列表。
了解函数和参数,进阶到编程数据分析师如何快速成为数据分析师?,会让你更快掌握。
了解中文编码、UTF8和ASCII,包括CSV分隔符等。稍后你会回来感谢我的。
养成好习惯如何快速成为数据分析师?,不要合并单元格,不要太花哨。表格根据原始数据、处理数据和图表的类型进行管理。
如果还有时间,可以看看大数据时代(豆瓣),培养专业兴趣。
另外一个练习题,我给你1000个身份证号码,告诉我有多少男女,每个省市的人口分布,这些人的年龄和星座。 (普通身份证号可以网上搜索)
第 2 周:数据可视化
数据分析界有句经典的说法,字不如表,表不如图。数据可视化是数据分析数据挖掘的主要方向之一。除了数据挖掘等高级分析之外,很多数据分析都是监测数据和观察数据。
数据分析的最终目的是推销自己的观点和结论。一个好办法就是制作一个观点清晰、数据详细的PPT给老板看。如果没有人认同分析结果,那么分析就不会得到改进和优化,那行不通的数据分析的价值在哪里?
首先要了解常用的图表:
各类图表的详细介绍可以查看第四篇:数据可视化:你想知道的经典图表都在这里
了解图表后,您还应该学习制作报告。第五章:数据可视化:打造高端数据报表。会教你Excel的高级图表用法。
如果这还不够,我们必须掌握信息图表和 BI。下图是微软的Power BI:
BI(商业智能)与图表的区别在于,BI 擅长交互和报告,更擅长解释已经发生和正在发生的数据。即将发生的数据就是数据挖掘的方向。
BI的好处是在很大程度上解放了数据分析师的工作,提升了整个部门的数据意识,减少了其他部门的数据需求(邪恶的领先数据)。
市场上有许多 BI 产品。基本上,仪表板的构建是为了通过维度链接和钻孔获得可视化分析。 Part 6:数据可视化:浅显BI 你将根据第一周的实战数据学习BI。上图是研究的结果。
数据可视化的学习是三个过程,理解数据(图表)、整合数据(BI)、展示数据(信息化)。
可视化也与美学密切相关。很多直男代表都不擅长画画。没关系,有时间可以看书:数据之美(豆瓣)
不要离开PPT,Excel练习有很多图纸,不会疼的。
PPT – 热门问答
Excel图表绘制-热门问答
第 3 周:分析性思维训练
本周我们放松一下,学习理论知识。
分析思维最先推广著名的金字塔法则(豆瓣),帮助数据分析师构建思维。如果金字塔原理启发了你,那么你可以学习思维导图,下载 XMind 中文网站,或者在线使用百度脑图(百度难得一见的不被骂的产品)。
如果你不想看金字塔原理,那就看第七篇:如何培养麦肯锡式的分析思维。本书的大部分内容都经过精炼。
详细了解 SMART、5W2H、SWOT、4P 理论、六顶思考帽和其他框架。这些框架都是大手笔的经典。如果你想快速成为一名数据分析师,思维方式必须改变。上网搜索咨询公司的面试题,搜索Case Book。这些问题是用新学的思维导图完成的。先设置那些经典框架,再做一遍,再看答案对比。
一旦建立了思维框架,我们应该在里面放一些数据分析思维,如何建立数据分析思维框架。结合这两篇文章,你可以当老师了。
这里是三句金句:
没有指标,企业就无法成长和分析
一个好的指标应该是一个比率或比率
一个好的分析应该对比或相关。
举个例子:我告诉你一家超市今天有1000个顾客,你会怎么分析?
1000人的数量与附件中的其他超市相比是多少? (比较)
这 1000 人的数量比昨天多还是少? (比较)
1000 人中有多少人实际进行了购买? (转化率)
路过超市,超市外有多少人流? (转化率)
这是构建分析框架的快速方法。如果您只查看 1000 人,您将看不到任何分析结果。
一个好的数据分析师会折磨别人的数据,而他自己的分析经得起折磨。这就是分析思维的能力。需要明确的是,数据思维不能在一周内锻炼,只有理解才能实现。数据思维是不断练习的结果,我只是尽量缩短过程。
深度数据分析(豆瓣)
这本书太啰嗦了,我放弃了一半……不过推荐人很多,你可以快速阅读。
第 4 周:数据库学习
Excel 处理多达 100,000 条数据没有问题,但互联网行业不缺数据。只要产品规模小,数据就来自数百万。这是您需要了解数据库的地方。
开始使用数据库,阅读这篇文章:数据库新手指南
越来越多的产品和运营职位将使用 SQL 作为招聘条件的优先级。子选项。
SQL 是数据分析的核心技能之一。从 Excel 到 SQL 绝对是数据处理效率的一大进步。
学习围绕选择展开。添加、删除、约束、索引和数据库范例都可以跳过。 SQL学习不用买书,W3C学习就行,SQL教程。大部分互联网公司都是MySQL,我也推荐学习,最划算。
主要了解where、group by、order by、have、like、count、sum、min、max、distinct、if、join、left join、limit和andor逻辑、时间转换函数等。
如果想更进一步,可以学习row_number、substr、convert、contact等。另外,不同数据平台的功能会有所不同,比如Presto和phpMyAdmin。
你看,它类似于 Excel 的功能。根据SQL,从入门到精通SQL,从精通到精通这两篇文章的内容。虽然没有实战打磨,但知道一个大概就够了。
在此期间,您无需考虑优化和丑陋的写作。对于数据分析师来说,几秒钟和几分钟的查询没有区别。一边运行数据一边喝杯咖啡,然后就可以运行 SVM 吃饭了。
你也可以在网上搜索SQL相关的练习题,刷一次就行了。你也可以自己下载数据库管理工具,找一些数据练习。我正在使用 Sequel Pro。
补充学习:
如果这周学得够多,就可以理解 MapReduce 的原理了。
让我们做一个练习。表 A 是用户的注册时间表,表 B 是用户的位置。编写每个地区每月新注册用户的查询SQL。掌握这个级别基本就够了,虽然以后的工作会有更多的异常数据需求。
第 5 周:统计知识学习
不幸的是,统计知识是我的弱点,也是数据分析的基础。
统计要求我们以不同的眼光看待数据。当您知道将 A 组和 B 组之间的差异视为平均值是多么愚蠢时,您的分析能力也会显着提高。
本周努力掌握描述性统计数据,包括平均值、中位数、标准差、方差、概率、假设检验、显着性、总体和抽样等概念。无需查看详细的数学推导。谁让我们快点做的?我们只要看到数据就知道什么是做不到的,但我们应该这样分析。
Excel 有一个简单而强大的分析工具库。理解第一列的名词。如果是多变量多样本,学习各种检验。
(我在网上找到图片)
统计会撒谎(豆瓣)
休闲阅读,有趣的案例让我们避免了很多数据陷阱。
简单语言统计(豆瓣)
它仍然是经典的 HeadFirst 系列,所以让我们习惯它通常的啰嗦。
还有一件事,老板和非分析人员不会有兴趣了解其背后的统计原理,通常在分析之后是肯定或否定的二元答案。不要告诉他们 P 值或任何东西,告诉他们该活动有效或无效。
第 6 周:商业学习(用户行为、产品、运营)
本周需要商业知识。对于数据分析师来说,业务理解比数据方法更重要。当然,遗憾的是,商业学习没有捷径可走。
让我举一个数据沙龙的例子。某O2O外卖公司发现,重庆外卖配送效率低于其他城市,导致用户好评率较低。总部的数据分析师建立了各种指标来分析原因,但没有发现问题。后来在采访中发现,因为重庆是山城,路面高差被夸大,很多外卖员带着小电池上不了坡……所以外送效率慢。
在这种情况下,我们只知道送货员的水平距离,而从数据中无法知道垂直距离。这是数据的局限,也是只看数据的分析师和脚踏实地的分析师的最大区别。
了解商业市场是数据分析师工作经验的最大优势之一。既然是零经验的面试,公司也要知道,一个刚起步的分析师不会有太多的业务经验,不会接受这张卡。所以只需花一周时间了解行业的各项指标。
以了解最多的互联网行业为例。至少了解活跃用户数、活跃用户率、留存率、流失率、传播因子等一般概念。
增长黑客(豆瓣)
典型的数据驱动型业务,包含最经典的AAARR产品运营框架。如果时间紧迫,可以跳过一些非数据营销案例。此外,您还可以阅读产品和运营方面的入门书籍,这里不推荐。
网站分析(豆瓣)
如果你申请的公司涉及网络产品,你可以理解流量的概念。书中的案例主要基于谷歌分析。事实上,它现在是一个APP+Web的复合框架。比如朋友圈的交流活动,就必须用网页的指标来分析。
精益数据分析(豆瓣)
互联网数据分析入门书籍,总结了几种常用的分析框架。可惜案件都在欧美。
还有一个小建议,第三方数据应用很多,包括很多产品领域的数据分析和统计。即使自学党没有生产环境的数据,也可以看看应用Demo,受益匪浅。
除了业务知识,业务层面的沟通也需要掌握。也建议在面试前几天收集行业内的业务,加强一下。
第 7 周:Python/R 学习
终于到了第七周,也是最痛苦的一周。这是学习编程技能的时候了。
是否有编程能力是初级数据分析和高级数据分析的风水。数据挖掘、爬虫和可视化报告都需要编程技能。掌握一门优秀的编程语言,可以让数据分析师事半功倍,升职加薪,嫁给白富美。 (我不懂SAS/SPSS,所以不给指导)
这里有两个分支,学习R语言或者Python。您只需快速学习一门课程,然后您可以稍后补上另一门课程。
我碰巧两个都学过。 R 的优点是由统计学家编写的,缺点是由统计学家编写的。如果是调用、绘图和分析各种统计函数的先验论证,R 无疑具有优势。但是海量数据的处理能力不足,学习曲线比较陡峭。 Python 是一种通用的胶水语言,适用性强,可以编写各种分析过程的脚本。 Pandas、sklearn 等包也与 R 并列。
如果你是学R的话,推荐看R语言实战(豆瓣),按照书上的代码打一个星期绰绰有余。另外,还有一个统计(豆瓣),部分知识论,可以复习以前的统计知识。
R 学习并熟悉各种包。了解描述性统计的功能。主数据框。如果你有时间。你可以再去学习ggplot2。
Python有很多分支,我们专注于数据分析,大家可以学习Python(影印版)(豆瓣)进行入门。再写一遍代码。
需要学习条件判断、字典、切片、循环、迭代、自定义函数等。了解数据领域最经典的包Pandas+Numpy。
在崩溃之后的很长一段时间里,我们都必须成为调谐器。
最好安装这两种语言的IDE,我推荐R语言的RStudio,Python的Anaconda。它们都是数据分析的工具。
Mac自带Python2.7,不过现在Python 3比几年前成熟多了,不存在编码问题。各种教程都够了,别老土了。 Win电脑,安装Python会有环境变量的问题,是个大坑(R的中文代码也是天坑)。
现在只有七周。如果你还需要第八周+,那就是巩固和整合以上。毕竟急功近利的目的是为了调动工作或者拿到offer。
成为数据分析师,坑才刚刚开始,努力吧。
所有内容都已更新数据分析师,因为知乎现在不允许发贴,这里就不放了。可以看专栏,也可以关注公众号。
——我是个不要脸的软阔——
评论前必须登录!
注册