發表文章

目前顯示的是 2月, 2021的文章

【特徵工程筆記】挑戰用最廢的方式來講核密度估計(Kernel Destiny Estimation)

圖片
  (來自維基的圖) 目標: 用直覺(最廢)的方式無深入有淺出去講解核密度估計 步驟: 1.什麼是核 2.什麼是核密度估計 3.核密度估計日常上能做什麼? 1.什麼是核 在講核密度估計之前首先來說什麼是核(Kernel)?核在統計上或者在數據上代表的就是: 一個函數、一個函數、一個函數 ...(回音)直覺上來說就是一個f(x)的值。 通常比較常見的核函數就是高斯(Gaussian),如果用高斯分佈(常態分佈)如下圖: 也就是平常使用的2個標準差約符合95%分佈、3個標準差約符合99%的分佈。此時我們常說的標準差就是核,通常核也是有著權重的意思。 怎麼突然又有權重的意思?不要想的太深奧,想像成是一個文字遊戲,把“2個標準差符合95%的分佈”這句話中的標準差改成權重來唸是不是也是能通呢? 最後補充核函數是必須符合兩個定義: 歸一化 對稱性 2.什麼是和密度估計 講完什麼是核接下來就來上主菜,什麼是核密度估計? --------以下有雷小心閱讀------------- 核密度估計就是直方圖轉折線圖(結束) ????????????????????? ?????????????????就這樣? 嗯,不然再附贈一張圖給你, 再跟你說核密度估計就是把左邊的圖畫成右邊的圖 ,直覺的去說明核密度估計就是如此。 在數據上會把這樣的過程表示成不連續的數據轉化成連續的數據。雖然直方圖的本質上認為頻率是等於機率,但是這種說法不是必然的。所以才需要折線圖也就是核密度估計的方式去表示。 所以核密度估計(Kernel Destiny Estimation,簡稱KDE)就可以回答,有個觀察質X,會被觀察的機率是有多少呢?也就是在連續無窮的過程中有個值會被發現的機率是多少。因此要講不連續變成連續的過程,就必須要去除每條直方圖的寬帶有多少,這樣就能夠轉化成核密度估計,如果用這個角度去理解公式那麼就比較容易。 3.核密度估計日常上能做什麼? 其實將直方圖轉乘成折線圖本身是不影響解釋,是幾乎不會有差異。前者是一區一區的來看、後者則是一條線畫出來。即使將不連續轉化成連續的過程中,實務上也不太會看的太精準、也不會特定討論用那種估計去討論,因為最終目的就是看一個趨勢而已。 也因此實務上我們把直方圖畫成一幅折線圖,相對視覺上來說比較好看而已。(有沒有覺得很絕望) 也因為現實中許多因素,不需要先有太深奧的...

【特徵工程學習筆記】對數據取log有什麼好處

圖片
(Just a log.)  目標: 用較泛的角度解釋對非正態分佈的數據取log會有什麼好處以及原因 1.前言 2.為什麼會有取log這件事情 3.取log有什麼好處 4.結論 1. 前言 取log簡單說下,目的就是要解決下面的例子: Q:12為2的幾次方? 核心目標就如上,幾個較不確定的中文詞會附註英文,有興趣可以用英文google結果會較準。 2.為什麼會有取log這件事情 將數據餵進去跑模型之前,通常我會簡單進行三個步驟處理: * 預處理清洗數據內容 * 改變特徵類型(categorical or numerical data type transfer ) * 查看數據分佈(positive or negative skew in distribution) 對數據取log本身是再處理第三點, 目的是要讓數據分佈的偏態(skew)盡量回到正態分佈(normal distribution)。 若假設要取log的欄位每項數據為a,則必須符合以下兩個條件: 1. a > 0 2. a != 1 (!= 不等於) 若不符合上述其中一項則無法使用log取對數。 但是實際上數據一定會有遇到欄位有負數或者等於1的值,這時候如果要取log會有兩種處理方式: * 再值前面加上 i -》 log( a+i) * 或者直接使用 box-cox transformer 上面並沒有哪個方式比較好,如果時間允許是建議兩個都試一試然後交叉驗證(Grid Search CV) 3. 取log有什麼好處 3.1 讓數據范圍變小 如果有一天搬家不考慮的質量的狀況下,有一個縮小燈先把東西都縮小然後帶著拿到目的地再用放大燈照,是不是就不用多跑幾趟去搬運。 所以取log目的在於要縮短數據絕對值的範圍 假如今天有組數據范圍介於10~1000,取log以後範圍就會變成1~100,數據范圍就會變小。 3.2 分佈形態會比較向正態分佈靠近 老前輩都說如果分佈(distribution)很偏就先取log說不定就會好一點。要解釋這原因就讓我想到有個日本清酒名叫獺祭,有兩款清酒: * 三割線九分 * 二割三分 幾割幾分就是米的研磨精度,三割九分就是磨掉三分之一的米、二割三分就是磨掉三分之二的米。磨掉越多的米純度就越高口感就越順。 取log再縮小數據的範圍同時也會再轉換的過程中將部分數據中的雜訊去除掉...