【特徵工程筆記】挑戰用最廢的方式來講核密度估計(Kernel Destiny Estimation)
(來自維基的圖)
目標:
用直覺(最廢)的方式無深入有淺出去講解核密度估計
步驟:
1.什麼是核
2.什麼是核密度估計
3.核密度估計日常上能做什麼?
1.什麼是核
在講核密度估計之前首先來說什麼是核(Kernel)?核在統計上或者在數據上代表的就是:
一個函數、一個函數、一個函數 ...(回音)直覺上來說就是一個f(x)的值。
通常比較常見的核函數就是高斯(Gaussian),如果用高斯分佈(常態分佈)如下圖:
也就是平常使用的2個標準差約符合95%分佈、3個標準差約符合99%的分佈。此時我們常說的標準差就是核,通常核也是有著權重的意思。
怎麼突然又有權重的意思?不要想的太深奧,想像成是一個文字遊戲,把“2個標準差符合95%的分佈”這句話中的標準差改成權重來唸是不是也是能通呢?
最後補充核函數是必須符合兩個定義:
- 歸一化
- 對稱性
2.什麼是和密度估計
講完什麼是核接下來就來上主菜,什麼是核密度估計?
--------以下有雷小心閱讀-------------
核密度估計就是直方圖轉折線圖(結束)
?????????????????????
?????????????????就這樣?
嗯,不然再附贈一張圖給你,再跟你說核密度估計就是把左邊的圖畫成右邊的圖,直覺的去說明核密度估計就是如此。
在數據上會把這樣的過程表示成不連續的數據轉化成連續的數據。雖然直方圖的本質上認為頻率是等於機率,但是這種說法不是必然的。所以才需要折線圖也就是核密度估計的方式去表示。
所以核密度估計(Kernel Destiny Estimation,簡稱KDE)就可以回答,有個觀察質X,會被觀察的機率是有多少呢?也就是在連續無窮的過程中有個值會被發現的機率是多少。因此要講不連續變成連續的過程,就必須要去除每條直方圖的寬帶有多少,這樣就能夠轉化成核密度估計,如果用這個角度去理解公式那麼就比較容易。
3.核密度估計日常上能做什麼?
其實將直方圖轉乘成折線圖本身是不影響解釋,是幾乎不會有差異。前者是一區一區的來看、後者則是一條線畫出來。即使將不連續轉化成連續的過程中,實務上也不太會看的太精準、也不會特定討論用那種估計去討論,因為最終目的就是看一個趨勢而已。
也因此實務上我們把直方圖畫成一幅折線圖,相對視覺上來說比較好看而已。(有沒有覺得很絕望)
也因為現實中許多因素,不需要先有太深奧的理論才來下結論,往往都是簡單一個假設就開始捲起袖子來實作。但是如果是對數學之美有著很深的熱情、熱愛微積分核密度函數也是可以挖掘到很深的地步。
所以說:
- 將直方圖圖改成折線圖
- 將直方圖改用核密度估計
其實都是同一件事情,就看大家喜歡怎麼說都可以
留言
張貼留言