如何在高中为数据科学做准备
数据基本上被用于每个领域:研究DNA以治疗疾病,分析星星的位置和方向,跟踪政治竞选和选民的意见,帮助企业回应消费者的反馈,确定标准化考试分数,等等。即使在艺术和创意领域,数据科学也正在成为一项关键技能。数据科学教育对高中生的重要性与日俱增。在这篇文章中,我们将讨论如何在高中为数据科学做准备的基础知识。
如何在高中从零开始学习数据科学(第1部分)
为什么要在高中准备数据科学?
高中阶段数据科学教育的差距
即使你的目标不是成为数据科学专业人士,成为一个数据素养的人在日常生活中也是极其重要的。从选择职业道路或大学到了解新闻,再到了解我们如何接受音乐、电影和产品推荐,甚至了解社交媒体新闻如何重申我们的政治信仰,数据帮助我们成为知情的公民并做出决定。
然而,在高中阶段的培训方面存在明显的差距。
在美国,在一所大型公立学校提供的近200门课程中,只有两门课程侧重于统计学或数据科学:一门入门级课程和一门AP课程。这是美国最好的公立学区之一。读为什么数据科学教育应该改革——一个高中生的视角.
招聘人员当前面临的挑战?
目前,大多数学生只在高中接触到计算机科学或计算思维,在进入大学或工作岗位后才第一次接触数据科学。
随着挖掘大量数据的能力变得更加可行,下一代学生学习如何分析和实际地与更大的数据集交互也变得更加重要。
更新当前的课程以反映这些技术范式的转变,将数据科学纳入其中,为高中生提供了一个初始工具箱,他们可以在整个大学和职业生涯中使用这些工具箱来培养额外的技能。
高中数据科学学习的现状
大多数高中都教授计算机处理和计算机科学的入门课程,有些还将新技术的基础知识纳入课程。不幸的是,很少有高中开设专门学习数据科学的课程。
技术进步和社会如何与技术相互作用的演变是不断发展的。更新高中课程以反映这些变化是为下一代在全球经济中工作做好准备的必要条件。阅读更多关于高中数据科学学习.
在2020年,南加州51所高中的3000多名高中生参加了数据科学课程在他们的课程中。数据科学入门课程是由加州大学洛杉矶分校设计的。
计算机科学(或数学/物理)vs数据科学:12年级后哪个更好?
根据Arun Kumar教授(加州大学圣地亚哥分校)的说法,与大多数计算机科学项目相比,数据科学项目将提供更多的统计/数学技能和数据驱动应用程序的实践经验(例如,在具有混乱的真实数据集的领域科学)。所有这些都可以让你在数据科学家、机器学习工程师等职业生涯中处于领先地位。
计算机科学课程也可以引导这样的职业道路,但它可能需要学生更多有意识的独立努力来填补他们在统计/数学知识和获得实践经验的途径方面的空白。
我很警惕那些仅仅在统计学学位的基础上增加一些计算机科学课程的大学,反之亦然,因为他们没有对课程进行更深入的教学思考就随大流了。
- Arun Kumar教授,加州大学圣地亚哥分校副教授
现在,我们将进入本文的主要议程——如何在高中为数据科学做准备。
在高中学习数据科学的顶级技能
数据科学就是讲故事和理解数字,这反过来帮助我们理解情况,使企业能够做出更准确的决策,也被称为数据驱动的决策。
用一句话来说,我们可以把它概括为从一组字母数字的原始数据中获得有意义的见解。
编程技能
编程是数据科学技能旅程中最关键的组成部分之一,因为编程用于数据科学工作功能的各个方面,例如自动化任务,原始数据组织以及实现,修改和使用机器学习算法。扎实的编程基础将是完成所有这些任务的关键要求,因此求职者被期望默认拥有这些技能。
下一个重要的问题是选择哪种语言?
R和Python都是行业中同样有用的基础编程语言,但选择正确的语言取决于特定工作的经验和要求。
Python编程
例如,Python是一种通用的、通用的、多方面的编程语言,几乎用于所有的计算活动。它是一种开源的、基于社区的语言,结合了灵活性和特殊性。
它有数百个库来执行特定领域的工作。学习python非常容易,因为它支持简单明了的英语语法,因此任何级别的任何用户都可以轻松掌握。
相关文章:
R编程
另一方面,R是一种面向统计的可视化直观语言,主要由从事统计分析或有统计背景的人使用,使用起来很容易。
R中的语法比python稍微复杂一些,但对统计学家更有利,而且它强大的可视化功能能够有效地传达结果。请查看关于数据科学R编程的最佳在线课程.
所以,一个人必须根据他们的要求选择语言。
集成开发环境(IDE)
ide是可用于构建应用程序的软件或桌面应用程序,它们要么是独立的,要么是基于web的,它将常见的开发人员工具组合到单个图形用户界面中。
IDE通常包括以下内容:
- 源代码编辑器:一个文本编辑器,它可以显示和突出显示代码,以获得更好的视觉提示。本节还可能具有一些额外的功能,如代码自动完成、更好的注释等等。
- 本地构建自动化:简单的代码,通过自动化重复任务和自动纠错使编码更容易。
- 调试器:识别代码中的bug或错误以便于改正的程序。
数据库
数据科学是关于数据和数据操作的,这是学习数据库和基于数据库的语言(如SQL)的主要原因。
SQL是结构化查询语言的缩写,在数据处理领域起着举足轻重的作用。拥有数百万行和列的大型数据集通常很难通过传统技术来管理,SQL提供了一种精确的方式来访问、定位、调整和检查大量数据集。
“用Python、基础统计和SQL编写脚本是至关重要的,无论你在数据方面走哪个方向”
——格温·布里顿,南新罕布什尔大学(SNHU)全球校园STEM与商业项目副校长
数学与统计学
这是成为数据科学家的关键组成部分之一,因为从数据中获得的见解都是关于统计的。统计描述了数据的性质,在此基础上我们可以理解数据的性质。在统计方面的坚实基础是至关重要的,因为理解统计可以使数据科学家选择可能对分析有用的相应算法。
统计有助于破译隐藏在数字中的故事,并深入了解可以从数字中得出的联系和模式。
除了统计学,你还需要对线性代数和微分学有一定的了解,这是机器学习算法的基础。要了解算法的工作原理,数学基础是非常重要的,因为这将使学生能够释放算法的全部潜力,而不是将它们视为黑盒子。
数据可视化
我们都知道这句话,“一张图片胜过1000个单词”,这句话在数据科学的这个领域非常适用,因此了解可视化是这个领域的另一个关键因素。
每种编程语言都有自己的数据可视化方法,但R和Python这两种语言中都有最常用的库。这些库在制作静态和交互式图形表示方面非常强大。
Python的数据可视化库
Matplotlib
它是一个2D绘图库,可以在Python脚本、Python和IPython shell、Jupyter笔记本、web应用服务器和四个图形用户界面工具包中使用。
它是基于GUI的界面,便于可视化,并且能够仅用几行代码呈现以下类型的图形输出。
- 情节,
- 柱状图,
- 直方图,
- 功率谱,
- 干的情节,
- 散点图、
- 错误的图表,
- 饼图和更多....
最好的部分是开发这些代码的代码可以很容易地在matplotlib文档中找到,该文档可以在他们的网站上免费获得网站.
情节
它是一个2D和3D绘图库,是一个基于web的工具包,用于探索和创建富有洞察力的可视化。
它可以从任何python笔记本中访问,并且有一个有用的API(应用程序编程接口),可以自由使用。它还具有各种绘图功能和能力,例如:
- 散点图,
- 线图表,
- 柱状图,
- 误差线,
- 箱形图,
- 直方图,
- 多个轴,
- 次要情节和更多……
最好的部分是,开发这些代码可以很容易地在情节文档中找到,这些文档是免费提供的网站.
R的数据可视化库
ggplot2
它是一个文档齐全且流行的R包,它基于图形语法,使用绘图的基本构建块,可以在此库中创建任何绘图。基本的构建块包括数据集、轴和标签,这对于使用这个库创建图形是足够的。点击这里查看其官方文件。
ggvis
这是R中的另一个用于更好的数据可视化的包,它能够使用与ggplot2相同或相似的语法创建图形故事。该库也可以作为RStudio的独立应用程序使用,也可以从web浏览器中使用。这个包对于探索性数据分析非常有用。来看看.
需要一些帮助吗?以下是Stoodnt可以提供的帮助!
standoodnt正在为高中生(9 - 12年级)举办令人兴奋的夏季训练营。看看吧!
- 三周编程、数据科学、人工智能和云计算训练营(强调Python和包括云部署在内的实际应用)
- 为期3周的生物科学AI/ML和数据科学(涵盖Python和R,并侧重于生物学和生物医学领域的应用)
- 2周生物信息学和生物统计学(涵盖R编程以及生物技术、生物统计学和生物信息学的基础知识)