第二节:概率基础及高斯分布
上一节中我们讲述了机器学习的常规套路,以及一些基础的概念,比如损失函数,随机变量等。了解了线性回归中的损失函数是最小二乘,那么本节我们通过数学的角度证明为什么是最小二乘?所以有必要铺垫一个很重要的概率密度函数,高斯分布。
既然是分布,它本身就代表一个概率密度函数。只不过高斯分布,拆解开来,就是服从某种特点的概率密度函数。我们知道高斯分布的图形是这样的:
这个图像是高尔顿最早发现的,高尔顿是达尔文的表哥,小的时候做游戏的时候,发现如下图所示的游戏中:
他发现把一堆小球给倒进去之后,最后落在隔板里的越靠中间的落的越多,越靠外面的越来越落的越远,因为钉子是完全随机的,每次倒入小球的过程中,小球每次碰到钉子都会随机地往左走或者往右走,那么小球总共遇到多少层钉子就有多少次往左或者往右的机会,只要这个机会是公平的,最后最多的小球往左的次数跟往右的机会差不多,所以都落到中间的位置。而极少的小球回落到两边,从而他发现了这个高斯分布的函数。
好多自然界中的事物就是服从高斯分布的,比如大学里把女性的教职员工拉过来,在操场站队,按身高五厘米为一个间隔,各自占一个队。你会发现特别矮的和特别高的都怎么样,比较少。身高在中间的最多,也在背后默默地形成了这么一个高斯分布的图形。
思考一下这个背后是为什么?什么决定了一个人的身高?好多种因素,从基因角度就有好多个基因决定。再从你未来生活的饮食习惯有好多种决定你爱不爱运动,又有好多种决定就是是不是好多好多种因素公平的综合的决定了你高还是矮。你想特别倒霉的人基因又矮,吃了又少,又不爱动了,然后父母所有基因都矮的人是不是一定会比较少,因为就相当于在高尔顿钉板这个模型里边,小球一直在往左走,每一个命运的岔路口他都选择了不好的决定,最后造成了它是一个比较特殊的例子。而对于人来说每一个因素决定身高很高这一种可能性也少。所以说若干个随机过程共同决定出一个结果的时候,往往最终的结果的概率密度函数会服从一个高斯分布的形式。 所以我们看简单来说,自然界中大量的现象都是由多种随机过程结合,最后得到一个结果,比如身高,那么根据中心极限定理,不同随机变量满足独立随机相加,就会让结果趋向于正态分布,这个结果就会趋向于正态分布的结果。也就是对于任何一个数学建模来说,我们不知道它服从什么分布的时候往往先拿正态分布来进行尝试。因为正态分布是最常见。
既然是高斯分布式一个概率密度函数,所以自然可以用数学的形式表达出来,具体怎么样得出高斯分布的概率密度函数我们不做推导,仅给出高斯分布的概率密度函数。
解释:
π就是3.14 ,e是2.7,是方差,u是均值。
我们理想的概率密度函数,就好比是一个完美的机器,答题机一样,你给我一个题目X,我给你结果概率,给我一个x我给你概率。什么情况下这个机器就算确定好了,只要你确定了均值和标准差,这个机器就算确定好了,也就是在σ和μ这两个东西已知的在均值和标准差都已知的情况下,给一个x就会得到一个唯一的结果,那么均值和标准差怎么求?
从名字中就可以窥探一二,假设你收集上来的这堆数据真的服从高斯分布的话,并且你收集上来数量又足够多的情况下,均值就是平均值。就是方差,如下公式。
以上实际上我们是我们是讲解了一下概率论的一些基础,咱们回忆下什么是随机变量? 你可以把它跟随机试验绑在一起,就是某个随机实验的结果。你也可以不把它绑在一起,就是有一个变量,这变量的每一个取值背后都有一可能性,这两个二合一就叫随机变量,缺一不可。上面那部分描述概率的那个东西叫做概率密度函数。对于离散型的概率分布,它们统称为分布。一定要记住这个词,分布就是指的随机变量背后衡量可能性的这个东西就叫做分布。
咱们关注的是连续型随机变量,因为我们回归问题处理是一个是连续的问题,那么到现在为止,我还没把它结合到咱们的机器学习上,咱们先不往那想,咱们先讲对于一种特殊的连续性随机变量,假如说我们说这个变量服从高斯分布,确实自然界中也有很多自然现象服从高斯分布,它的概率密度函数什么?就是如上的公式,希望大家能给它记下来,深深地刻在脑海里。
下一节,我们讲解最大似然推导mse损失函数(深度解析最小二乘来源)。