【特徵工程筆記】挑戰用最廢的方式來講核密度估計(Kernel Destiny Estimation)
(來自維基的圖) 目標: 用直覺(最廢)的方式無深入有淺出去講解核密度估計 步驟: 1.什麼是核 2.什麼是核密度估計 3.核密度估計日常上能做什麼? 1.什麼是核 在講核密度估計之前首先來說什麼是核(Kernel)?核在統計上或者在數據上代表的就是: 一個函數、一個函數、一個函數 ...(回音)直覺上來說就是一個f(x)的值。 通常比較常見的核函數就是高斯(Gaussian),如果用高斯分佈(常態分佈)如下圖: 也就是平常使用的2個標準差約符合95%分佈、3個標準差約符合99%的分佈。此時我們常說的標準差就是核,通常核也是有著權重的意思。 怎麼突然又有權重的意思?不要想的太深奧,想像成是一個文字遊戲,把“2個標準差符合95%的分佈”這句話中的標準差改成權重來唸是不是也是能通呢? 最後補充核函數是必須符合兩個定義: 歸一化 對稱性 2.什麼是和密度估計 講完什麼是核接下來就來上主菜,什麼是核密度估計? --------以下有雷小心閱讀------------- 核密度估計就是直方圖轉折線圖(結束) ????????????????????? ?????????????????就這樣? 嗯,不然再附贈一張圖給你, 再跟你說核密度估計就是把左邊的圖畫成右邊的圖 ,直覺的去說明核密度估計就是如此。 在數據上會把這樣的過程表示成不連續的數據轉化成連續的數據。雖然直方圖的本質上認為頻率是等於機率,但是這種說法不是必然的。所以才需要折線圖也就是核密度估計的方式去表示。 所以核密度估計(Kernel Destiny Estimation,簡稱KDE)就可以回答,有個觀察質X,會被觀察的機率是有多少呢?也就是在連續無窮的過程中有個值會被發現的機率是多少。因此要講不連續變成連續的過程,就必須要去除每條直方圖的寬帶有多少,這樣就能夠轉化成核密度估計,如果用這個角度去理解公式那麼就比較容易。 3.核密度估計日常上能做什麼? 其實將直方圖轉乘成折線圖本身是不影響解釋,是幾乎不會有差異。前者是一區一區的來看、後者則是一條線畫出來。即使將不連續轉化成連續的過程中,實務上也不太會看的太精準、也不會特定討論用那種估計去討論,因為最終目的就是看一個趨勢而已。 也因此實務上我們把直方圖畫成一幅折線圖,相對視覺上來說比較好看而已。(有沒有覺得很絕望) 也因為現實中許多因素,不需要先有太深奧的...