深度学习数学基础

转载自并有部分修改

高等数学

微分

微分是对函数的局部变化的一种线性描述.微分可以近似的的描述当函数自变量的变化率取值足够小
时,函数的值是怎样变化的(用直线代替曲线)。比如,x的变化量$\Delta x$趋于0时,记做微元dx。
$\Delta y = f(x_0 + \Delta x) - f(x_0)$
$\Delta y = A \Delta x + o(\Delta x) $ 其中A是不依赖于 $\Delta x$的常数。
$dy = A\Delta x $
$dy = f’(x)dx$

全微分

函数值的全增量 $f(x + \Delta x,y + \Delta y) - f(x,y) = \Delta z$
记为:$ dz = \frac{\partial z}{\partial x}\Delta x + \frac{\partial z}{\partial y}\Delta y$

$ y = shx 和 y = chx$

$ y = shx = \frac{e^x-e^{-x}}{2}$(双曲正弦函数) y’ = chx
$ y = chx = \frac{e^x + e^{-x}}{x}$ (双曲余弦函数) y’ = shx

复合函数,反函数,隐函数以及参数方程所确定的函数的微分法

方程组情形:

微分中值定理

费马定理

罗尔定理

拉格朗日中值定理

拉格朗日中值定理的几何意义: 如果连续曲线y = f(x)的弧AB,除端点外处处具有不垂直于x轴的切线,那么弧上至少有一点C,使曲线在点C处的切线平行于弦AB。

柯西中值定理

洛必达法则

泰勒公式

泰勒定理描述了一个可微函数,如果函数足够光滑的话,在已知函数在某一点的各阶导数值的情况下,泰勒公式可以用这些导数值最系数构建一个多项式来近似函数在一点的邻域中的值。说白了就是近似求解不好直接求解的函数值

泰勒公式有两个余项:

1.佩亚诺余项 $R_n(x) = o((x-x_0)^n) $
他就是用n次泰勒多项式来近似表达f(x)所产生的误差,这一误差是当 $x-> x_0$时比$(x-x_0)^n$高阶的无穷小,但是他不能具体估算出误差。(带佩亚诺余项的泰勒公式要求n阶导数)
2.拉格朗日余项
拉个朗日余项解决了佩亚诺余项无法具体估算出误差大小的弊端.
$ R_n(x) = \frac{f^{(n+1)}(\epsilon)}{(n + 1)!} (x-x_0)^{n+1} $
$\epsilon 是x_0 与x之间的某个值(带拉格朗日余项的要n+1阶)$
当n = 0,就变成了拉格朗日中值定理,$ f(x) = f(x_0) + f’(x_0)(x-x_0)$

常用五种函数在$ x_0 = 0$处的泰勒公式

函数单调性的判断

渐近线的求法

函数凹凸性的判断

1.设f(x)在区间I上联系,如果对I上任意两点$x_1,x_2$恒有:
$
f(\frac{x_1+x_2}{2})< \frac{f(x_1) + f(x_2)}{2} $那么称f(x)在区间I是向上凹的
2.若
$f(\frac{x_1+x_2}{2}) > \frac{f(x_1) + f(x_2)}{2} $ 是凸的
3.若在区间I上 f(x)有一、二阶导数,若$f’’(x) > 0$ 则在区间I是凹的
4 若$f’’(x) < 0 $ 是凸的

拐点判别定理

拐点: 曲线$y=f(x)$在经过点$(x_0,f(x_0))$时曲线的凹凸性改变,则该点就是拐点

弧微分

$dS = \sqrt {1 + y’^2} dx$

曲率和曲率半径

条件极值—拉格朗日乘数法

无条件极值

1.怎样判断驻点(x_0,y_0)是否是极值点?
$设函数z=f(x,y)在点(x_0,y_0)的某邻域内连续且有一阶及二阶连续偏导数。$

(1)$AC -B^2 > 0$时有极值点,且A < 0有极大值,A>0时有极小值
(2)$ AC-B^2 < 0$ 无极值
(3) AC-B^2 = 0可能有可能没有,需要继续讨论

拉格朗日乘数法

要找函数$z = f(x,y)在附加条件\phi(x,y)=0$条件下的可能极值点,可以先做拉格朗日函数$L(x,y) = f(x,y) + \lambda \phi(x,y) ,\lambda$ 为参数 .求其对x,y的一阶偏导数,然后和条件联立起来得:

由这个方程解出$x,y$以及$\lambda$,这样得到的$(x,y)$就是函数$f(x,y)$在附加条件下可能的极值点。当然也可以推广到多个条件的情况下

最小二乘法

见这里

多元函数求极值

线性代数

直观理解线性代数的本质

行列式

矩阵

向量

其中$ C = A^{-1}B $

正交向量组

若n维向量$ \vec a_1 ,\vec a_2 …\vec a_r$是一组两两正交的非零向量,则 $ \vec a_1 ,\vec a_2 …\vec a_r$一定线性无关.

线性方程组

3.n元线性方程组$ Ax = b$

(1)无解的充要条件$ R(A) < R(A,b)$
(2)有唯一解的充要条件 $ R(A) = R(A,b) = n$
(3)有无限多解的充要条件 $ R(A) = R(A,b) < n $
(4)n元齐次线性方程组$Ax=0$有非零解的充要条件$R(A) < n$

4.齐次线性方程组的基础解析和通解,解空间,非齐次线性方程组的通解

(1)齐次线性方程组$Ax=0$有非0解时,由于解向量的任意线性组合仍是该齐次方程组的解向量,因子$Ax=0$的全体解向量构成一个向量空间,称为该线性方程的解空间。解空间的维数是$ n - R(A)$,解空间的一组基称为齐次线性方程组的基础解系。
(2)$\vec x_1,\vec x_2,…\vec x_r是Ax = 0的基础解系$:
(i) $\vec x_1,\vec x_2,…\vec x_r 是Ax = 0的解$
(ii)$\vec x_1,\vec x_2,…\vec x_r$线性无关
(iii)$Ax = 0$的任意解都可以由 $\vec x_1,\vec x_2,…\vec x_r$线性表示,也就是 $k_1\vec x_1,k_2\vec x_2,…k_r\vec x_r 是Ax= 0的通解,k_i为任意常数$

矩阵的特征值和特征向量

1.设A是n阶矩阵,如果数$\lambda $和n维非零列向量x使关系式 $ Ax = \lambda x$成立,那么$ \lambda 就是特征值,x为对应的特征向量$ 也可以写成$ (A - \lambda E)x = 0$,有非0解的充要条件是$|A-\lambda E| = 0$

2.矩阵的特征值和特征向量的概念及性质

3.相似变换、相似矩阵的概念及性质

PS:这里需要注意,A~B表示A的特征值和B的特征值相同,特征多项式相同,但是他们的特征向量不一定相同。
证明:因为$B = P^{-1}AP (B -\lambda E)x = (P^{-1}AP - \lambda E)x $
$ = (P^{-1}AP - \lambda P^{-1}EP)x = P^{-1}(A-\lambda E)Px = \lambda x$
$ (A-\lambda E)Px = \lambda Px$ 由此可得知B对应$\lambda $的特征向量为x,而A的特征向量为 $Px$

矩阵可相似对角化的条件

对阵矩阵一定可以相似对角化,必有正交矩阵P使得$P^{-1}AP = P^TAP = C(对角阵)$
(1)充要条件: A有n个线性无关的特征向量 (n个特征值对应的特征向量全部线性无关) PS:此时矩阵P才可逆
推论:A有n不相等的特征值则A可对角化(充分不必要)

实对称矩阵的特征值、特征向量及相似对角阵

(7)如果可对角化还与同一对角矩阵相似

二次型

惯性定理、标准型与规范型

用正交变化和配方法化二次型为标准型

负定: 充要条件:奇数阶主子式为负,偶数阶主子式为正

概率论与数理统计

随机事件和概率

随机变量及其概率分布

1.随机变量及概率分布

取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分布律

常见分布

几何分布: 几何分布(Geometric distribution)是离散型概率分布。其中一种定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。详细地说,是:前k-1次皆失败,第k次成功的概率
超几何分布: 超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不放回)。称为超几何分布

重要公式与结论

多维随机变量及其分布

重要公式与结论

这里需要注意,上述的协方差系数p=0时,X,Y一定不相关,但是不相关并不代表着他们相互独立,比如某些离散型的(此时不一定有P(XY) = P(X)P(Y)),但是在二维正态分布中二者是等价的。

随机变量的数字特征

期望与方差

性质

协方差与相关系数

重要公式与结论

数理统计的基本概念

基本概念

分布

正态总体的常用样本分布

结论

各种分布的期望及方差总结

0 - 1分布

$E(X) = p,D(X) = p(1-p)$

二项分布

$E(X) = np,D(X) = np(1-p)$

泊松分布

$ E(X) = \lambda,D(X) = \lambda$

指数分布

$ E(X) = \theta,D(X) = \theta^2$

正态分布

$ E(X) = u,D(X) = \sigma^2$

均匀分布

$ E(X) = \frac{a+b}{2},D(X) = \frac{(b-1)^2}{12}$


-------------本文结束感谢您的阅读-------------


本文标题:深度学习数学基础

文章作者:Statusrank

CSDN博客欢迎来访!

发布时间:2018年09月04日 - 22:09

最后更新:2018年12月20日 - 21:12

原始链接:https://statusrank.xyz/articles/ef59843b.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

万水千山总是情,就给五毛行不行!

相关文章: