导数、微分和梯度

最近推导神经网络的前向传播和反向传播过程,经常会遇到有关导数、微分和梯度的内容,对它们的概念进行一次小结

  • 导数
  • 微分
  • 偏导数
  • 全微分
  • 方向导数
  • 梯度

导数

设函数y=f(x)在点x0处的某个邻域U(x0,δ)内有定义,当自变量xx0处取得增量Δx(点x+Δx仍在该邻域内)时,相应地,函数y=f(x)取得增量Δy=f(x0+Δx)f(x0),如果极限

limΔx0ΔyΔx=limΔx0Δf(x0+Δx)f(x0)Δx

存在,则称函数y=f(x)在点x0处可导,并称这个极限值为函数y=f(x)在点x0处的导数,记为

y|x=x0, f(x0), dydx|x=x0  df(x)dx|x=x0

f(x0)=limΔx0ΔyΔx=limΔx0Δf(x0+Δx)f(x0)Δx

函数f(x)在点x0处可导有时也说成f(x)在点x0具有导数或导数存在

如果极限不存在,则说y=f(x)在点x0处不可导

不可导情形

  1. Δx0时,ΔyΔx没有稳定的变化趋势
  2. x=,此时也说导数为无穷大

左导数和右导数

设函数y=f(x)在点x0的某个右邻域[x0,x0+δ)内有定义,如果极限

limΔx0+Δf(x0+Δx)f(x0)Δx  limxx0+f(x)f(x0)xx0

存在,则称此极限为函数f(x)在点x0处的右导数,记作$f'{+}(x{0})

设函数y=f(x)在点x0的某个右邻域[x0,x0+δ)内有定义,如果极限

limΔx0Δf(x0+Δx)f(x0)Δx  limxx0f(x)f(x0)xx0

存在,则称此极限为函数f(x)在点x0处的左导数,记作f(x0)

函数y=f(x)在点x0处可导的充分必要条件是左导数f(x0)和右导数f+(x0)都存在且相等

可导性和连续性

函数连续只是函数可导的必要条件,但不是充分条件,所以如果函数在某点不连续,则函数在该点必不可导

所以可导必连续,连续不一定可导,不连续一定不可导

四则运算法则

  • [u(x)+v(x)]=u(x)±v(x)
  • [u(x)v(x)]=u(x)v(x)+u(x)v(x)
  • [u(x)v(x)]=u(x)v(x)u(x)v(x)v2(x)

微分

设函数y=f(x)在某个区间内有定义,x0x0+Δx在这个区间内,如果函数的增量Δy=f(x0+Δx)f(x0)可表示为

Δy=AΔx+o(Δx)

其中A是与Δx无关的常数,o(Δx)是比Δx高阶的无穷小,则称函数y=f(x)在点x0可微,称AΔx为函数y=f(x)在点x0相应于自变量增量Δx的微分,记作dy|x=x0df(x)|x=x0,即

dy|x=x0=AΔx

可微与可导

函数y=f(x)在点x0处可微的充要条件是f(x)在点x0处可导,且

dy|x=x0=f(x0)Δx

所以可微必可导,可导必可微,二者等价

偏导数

设函数z=f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0,而xx0处有增量Δx时,相应地函数有增量

f(x0+Δx,y)f(x0,y0)

如果

limΔx0f(x0+Δx,y0)f(x0,y0)Δx

存在,则称此极限为函数z=f(x,y)在点(x0,y0)处对x的偏导数,记为

zx|x=x0,y=y0, fx|x=x0,y=y0, zx|x=x0,y=y0,  fx(x0,y0)

类似地,函数z=f(x,y)在点(x0,y0)处对y的偏导数定义为

limΔy0f(x0,y0+Δy)f(x0,y0)Δy

记为

zy|x=x0,y=y0, fy|x=x0,y=y0, zy|x=x0,y=y0,  fy(x0,y0)

由偏导数的定义可知,求偏导数本质上是求一元函数的导数,函数对某一个变量求偏导数时,只需要把其余的自变量看成常数,因此一元函数微分法的求导法则全部适用于多元函数的偏导数

全微分

设二元函数z=f(x,y)在点(x,y)的某领域内有定义且偏导数fx(x,y),fy(x,y)存在,当变量x,y分别有增量Δx,Δy时,由一元函数增量与微分的关系,得

f(x+Δx,y)f(x,y)fx(x,y)Δxf(x,y+Δy)f(x,y)fy(x,y)Δy

其中

f(x+Δx,y)f(x,y), f(x,y+Δy)f(x,y)

分别成为二元函数对x和对y偏增量,而

fx(x,y)Δx, fy(x,y)Δy

分别称为二元函数对x和对y偏微分,将

Δz=f(x+Δx,y+Δy)f(x,y)

称为函数f(x,y)在点(x,y)处的全增量

若函数z=f(x,y)在点(x,y)处的全增量可以表示为

Δz=f(x+Δx,y+Δy)f(x,y)=AΔx+BΔy+o(ρ)

其中,A,B不依赖于Δx,Δy,只与x,y有关,ρ=(Δx)2+(Δy)2o(ρ)是当ρ0时比$高阶的无穷小量,则称函数z=f(x,y)在点(x,y)可微,而称Ax+By为函数z=f(x,y)在点(x,y)$处的全微分,记作

dz=AΔx+BΔy

全微分、偏导数与连续性

如果函数z=f(x,y)在点(x,y)处可微,则函数在该点连续

所以连续是可微的必要条件,可微必连续

如果函数z=f(x,y)在点(x,y)处的两个偏导数zx,zy存在且连续,则函数在该点可微

所以偏导数存在且连续是可微的充分条件,可微必存在偏导数

偏导数和连续性没有关系

方向导数

设函数z=f(x,y)P0(x0,y0)的某一领域U(P0)内有定义,自P0(x0,y0)点引射线l,在l上任取一点P(x0+Δx,y0+Δy),PU(P0)

P沿l趋近于P0时,即当

ρ=(Δx)2+(Δy)20

时,极限

limρo+f(x0+Δx,y0+Δy)f(x0,y0)ρ

存在,则称此极限为函数f(x,y)在点P0处沿方向l方向导数,记作fl|x=x0,y=y0,即

fl|x=x0,y=y0=limρo+f(x0+Δx,y0+Δy)f(x0,y0)ρ

方向导数和偏导数

如果函数z=f(x,y)在点P0(x0,y0)的偏导数存在,则偏导数就是函数沿坐标轴正向的方向导数

梯度

设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点P0(x0,y0)D都可确定一个向量

fx(x0,y0)i+fy(x0,y0)j

该向量称为函数z=f(x,y)在点P0(x0,y0)的梯度,记作gradf(x0,y0)f(x0,y0),即

gradf(x0,y0)=fx(x0,y0)i+fy(x0,y0)j={fx(x0,y0),fy(x0,y0)}

梯度和方向导数

el={cosα,cosβ}是与方向l同方向的单位向量,则由方向导数的计算公式得

fl|x=x0,y=y0=fx(x0,y0)cosα+fy(x0,y0)cosβ={fx(x0,y0),fy(x0,y0)}{cosα,cosβ}=gradf(x0,y0)el=|gradf(x0,y0)|cosθ

θ=0,即方向el与梯度gradf(x0,y0)的方向相同时,方向导数fl|x=x0,y=y0=取得最大值,也就是函数f(x,y)增加得最快,这个最大值就是梯度gradf(x0,y0)的模,即|gradf(x0,y0)|

所以梯度向量的方向是函数在该点的方向导数取得最大值的方向,梯度向量的模就是方向导数的最大值

小结

  1. 一元还是多元

    导数和微分是一元函数定义

    偏导数、全微分、方向导数和梯度是多元函数定义

  2. 导数、微分和连续性关系

    导数和微分等价,可导必可微,可微必可导

    连续性是导数的必要关系,可导必连续,不连续必不可导

  3. 偏导数、全微分和连续性关系

    偏导数、全微分和连续性没有等价关系

    连续性和偏导数存在是可微的充分条件

    连续性是可微的必要条件,可微必连续

    偏导数是可微的必要条件,可微必可偏导

    连续性和偏导数没有关系

  4. 全微分、方向导数和梯度

    全微分存在是方向导数存在的充分条件,全微分存在则方向导数存在

    梯度方向是方向导数取得最大变化的方向,梯度模就是最大变化值

相关阅读