来自媒体
Benjamin Obi Tayo
机器之心编译
参与:小舟、杜伟
作为一门基础学科,数学在数据科学和机器学习中发挥着不可或缺的作用。 数学基础是理解各种算法的前提,也有助于我们更透彻地理解算法的内在原理。 因此,本文作者解释了为什么数据科学和机器学习离不开数学,并提供了统计和概率论、多元微积分、线性代数和优化数学四个分支中需要熟悉的一些数学概念 方法。
本文由博士撰写。 Benjamin Obi Tayo,物理学家、数据科学教育家和作家,其研究兴趣在于数据科学、机器学习、人工智能、Python 和 R 语言、预测分析、材料科学和生物物理学。
本文由 Benjamin Obi Tayo 撰写。
数据科学和机器学习都离不开数学
如果你是数据科学爱好者,你可能会有以下两个问题:
我几乎可以 你成为一名没有数学背景的数据科学家?
哪些基本数学技能在数据科学中很重要?
我们都知道数据科学离不开各种扩展包。 此外,现在有许多功能强大的软件包可用于构建预测模型或生成可视化数据。 下面列出了一些最常用的描述性和预测性分析包:
Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras
感谢上面的扩展包,任何人都可以建立模型 或生成数据可视化。 但与此同时,必须具有强大的数学背景才能优化模型以产生性能最佳的可靠模型。
也就是说,建立模型只是一方面。 另一方面,需要解释模型并得出有意义的结论,从而做出更好的数据驱动决策。
最后,在使用这些包之前,你需要了解每个包的数学基础,这样你才不会只是把这些包当作黑盒工具(black-box tool)。
案例分析:建立一个多元回归模型
假设我们要建立一个多元回归模型,我们需要提前问自己几个问题:
数据集有 How old is it?
什么是特征变量和目标变量?
哪些预测特征与目标变量最相关?
哪些功能比较重要?
trait 是否应该扩展?
数据集应该如何划分训练集和测试集?
什么是主成分分析(PCA)?
是否应该使用 PCA 去除冗余特征?
如何评价模型? R2 值,MSE 还是 MAE?
如何提高模型的预测能力?
您使用的是正则化回归模型吗?
什么是回归系数?
什么是拦截(intercept)?
您使用的是 KNeighbors 回归或支持向量回归等无参数回归模型吗?
模型中的超参数是什么? 如何调整超参数以达到最佳模型性能?
显然,如果没有良好的数学背景,您将无法解决上述问题。 因此,在数据科学和机器学习中,数学技能与编程技能一样重要,这一点至关重要。
作为数据科学的倡导者,有必要投入时间学习数据科学和机器学习的理论和数学基础。 可以毫不夸张地说,能否建立可靠有效的模型来解决现实世界的问题,还取决于你的数学技能有多好。
让我们讨论一些数据科学和机器学习中必要的数学技能。
数据科学和机器学习必备的数学技能
数学是包罗万象的,不是任何人都能掌握的。 因此,在数据科学和机器学习研究中,我们可以根据自己的具体领域、手头的具体工作或使用的具体算法,着重学习相应的数学技能。
统计与概率论
统计与概率论可用于变量可视化、数据预处理、特征变换、数据插补、降维、特征工程和模型评估等。
以下是需要熟悉的一些统计和概率概念:
均值、中位数、众数、标准差/方差;
相关系数和 协方差矩阵、概率分布(二项分布、泊松分布和正态分布);
p 值、贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵和 ROC 曲线)、中心极限 定理;
R_2值,均方误差(MSE),A/B测试,蒙特卡洛模拟。
多变量微积分
大多数机器学习模型都是使用包含多个特征或预测变量的数据集构建的。 因此,熟悉多元微积分对于构建机器学习模型非常重要。
以下是你需要熟悉的多元微积分数学概念:多元函数、导数和梯度、阶跃函数;
Sigmoid函数、Logit函数、ReLU函数、损失函数 ;
绘制函数图,函数最小值和最大值。
线性代数
线性代数是机器学习中最重要的数学技能。 数据集可以表示为矩阵。 线性代数可用于数据预处理、数据转换、降维和模型评估。
以下是你需要熟悉的线性代数概念:向量,向量范数;
矩阵,矩阵转置,矩阵求逆,矩阵行列式,矩阵迹,点积, 特征值,特征向量。
优化方法
大多数机器学习算法通过最小化目标函数来执行预测建模。
以下是您需要熟悉的优化数学概念:
损失函数/目标函数、似然函数、误差函数、梯度下降算法及其变体。
简而言之,作为数据科学的倡导者,您应该始终牢记,理论基础对于构建有效且可靠的模型至关重要。 因此,你应该投入足够的时间来研究每种机器学习算法背后的数学理论。
原文链接:https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19