举一个例子,铅笔、钢笔、圆珠笔、水彩笔、中性笔,它们的区别是什么?
同理,SPSS、SAS、Excel、Python和PowerBI是常见的数据分析工具,它们之间也有一些区别。这些工具都是用于数据处理的,但在功能侧重点上各有不同:
- Python:通用编程语言,其中包含的数据处理类库可用于数据科学类分析。
- Excel:一般用于数据量处理的办公软件。
- SAS:金融投资数据建模常用工具之一。
- SPSS:经典统计学数学工具。
- Power BI:以数据模型以及语义层为核心的商业智能工具。
让我们来具体了解一下它们的使用场景,以便大家能够最简单高效地选择适合自己的分析工具。
Python:关键词“编程语言”。频次高。特点:语言简单,具有数据结构化优势。场景:编程类数据分析。难度:一般。严格来说,Python和其他几类不属于同一类,它是一种编程语言。编程界有句至理名言:“人生苦短,我用Python”,没有Python不能编的东西,有一种“万物皆可盘”的感觉。主要优点如下:1.简单;2.易学;3.速度快;4.免费开源;5.高层语言;6.可移植性。如何学习:包括基本语法(数据类型和结构、变量、函数、逻辑语句(判断、循环)、匿名函数、错误处理、遍历和迭代、进程和线程、库的使用);一定量的代码训练量(网上找一些代码训练题目,大量刷题熟练基本语法);基于Python语法的数据分析工具。
以下是重构后的内容:
包括scipy/numpy、pandas、matplotlib、scikit-learn。
scipy/numpy:
它是一个由多维数组对象和用于处理数组的例程集合组成的库。
pandas:
是基于NumPy 的一种工具,具备强大的数据展示功能。
matplotlib:
可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。
scikit-learn:
机器学习库,可以对数据进行分类,回归,无监督,数据降维,数据预处理等等。
推荐书目:
《利用python进行数据分析》
《python编程 从入门到编程》
Excel:
是我们生活中最为常见的数据处理工具之一。虽然Excel的功能太多,出版的书都够好几本新华字典了,但是我们也没有必要完全学习所有的功能。有需则取即可。Excel主要优点包括:1、数据透视功能;2、统计分析;3、图表功能;4、高级筛选;5、自动汇总功能;6、高级数学计算等。如何学习Excel?可以从基本操作、数据可视化和基本函数等方面入手。推荐书目:《为什么精英都是excel控》。
SPSS: 关键词为“统计分析工具”,在特定领域使用较多。侧重于统计分析类模型。场景包括预测、建模和机器学习等领域。难度一般。
SPSS和SAS都是常用的统计分析工具。SPSS是学科数据定量分析的工具,所以在社会科学(如经济分析,市场调研分析)和自然科学等林林总总,几乎只要你想要稍微复杂点地看出一大串数据和各种表格之间的逻辑关系,都可以用SPSS做。不过对学习者的统计学能力要求较高。
SAS大多应用于金融、保险、调研、研究所等领域,也是制药行业为开发和评估药物提供统计分析的商用软件。不过sas对学习者的专业性要求较高,需要具备一定的编程语言能力,和较深的统计学基础,可能不太适用于刚入门的小白学习。
Power BI是微软最新的商业智能(BI)概念,它包含了一系列的组件和工具。一提到它,很多人会拿Tableau进行比较,我们可以简单来看一下。
与Tableau相比:
1. Tableau:操作简单,可视化效果好。如果要在一个大企业内推广,Tableau更容易上手,因为入门简单。但是很多报表功能无法实现。软件设计较为简单,由几个大模块组成,导致了想要对大模块进行精细化处理时无法实现。此外,Tableau的生态封闭。
2. Power BI:可以制作复杂报表,筛选、计算逻辑清晰,支持自定义功能。但是,很多高级功能需要使用DAX编写小程序,拖拽操作能实现的功能有限,学习曲线较陡峭。Power BI的生态相对开放。
推荐书目:《Power BI商业数据分析项目实战》
总之,在讨论两者区别时,可以从目的和使用者的角色出发:你的目标是什么?你的角色是什么?也许用哪一支笔都可以完成一篇文章,只不过是熟练程度和投入精力的问题。当明确了自己的目标并选择合适的角色后,再讨论具体的使用工具,这样或许可以提高工作效率。
商业工具关键词:STAT、ETS、QC、OR、INSIGHT等。
3. 开发呈现工具:AF、EIS、GRAPH等。
4. 分布处理与数据仓库:CONNECT、WA等。
Power BI作为商业智能工具的代表,具有较高的使用频次和个性化定制化的特点。它能够满足大量数据的定制化分析需求,但由于难度较高,需要一定的学习和实践过程。在选择使用Power BI或其他商业工具时,应根据自身需求和目标进行权衡和选择。