① 面對有大量缺失值的數據應該怎樣處理比較合理
避重就輕咯
② 如何處理數據中的缺失值
一、常用方法 1. 刪除
最簡單的方法是刪除,刪除屬性或者刪除樣本。如果大部分樣本該屬性都缺失,這個屬性能提供的信息有限,可以選擇放棄使用該維屬性;如果一個樣本大部分屬性缺失,可以選擇放棄該樣本。雖然這種方法簡單,但只適用於數據集中缺失較少的情況。
2. 統計填充
對於缺失值的屬性,尤其是數值類型的屬性,根據所有樣本關於這維屬性的統計值對其進行填充,如使用平均數、中位數、眾數、最大值、最小值等,具體選擇哪種統計值需要具體問題具體分析。另外,如果有可用類別信息,還可以進行類內統計,比如身高,男性和女性的統計填充應該是不同的。
3. 統一填充
對於含缺失值的屬性,把所有缺失值統一填充為自定義值,如何選擇自定義值也需要具體問題具體分析。當然,如果有可用類別信息,也可以為不同類別分別進行統一填充。常用的統一填充值有:「空」、「0」、「正無窮」、「負無窮」等。
4. 預測填充
我們可以通過預測模型利用不存在缺失值的屬性來預測缺失值,也就是先用預測模型把數據填充後再做進一步的工作,如統計、學習等。雖然這種方法比較復雜,但是最後得到的結果比較好。
二、具體分析
上面兩次提到具體問題具體分析,為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著數據缺失,缺失本身是包含信息的,所以需要根據不同應用場景下缺失值可能包含的信息進行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:
「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值; 「行為時間點」:填充眾數; 「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值; 「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值; 「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理; 」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理; 「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。
③ 分析股票時單獨一天歷史數據缺失 怎麼處理
一共有2個辦法:
1、進入數據管理,下載全部數據!
2、進入文件夾,找到DATA,然後再DAY裡面找到該股的代碼,將這個股單獨刪除,然後再開軟體,軟體會自動補充數據!
④ spss數據錄入時缺失值怎麼處理
錄入的時候可以直接省略不錄入
分析的時候也一般剔除這樣的樣本。但也有替換的方法,一般有:
均值替換法(mean imputation),即用其他個案中該變數觀測值的平均數對缺失的數據進行替換,但這種方法會產生有偏估計,所以並不被推崇。
個別替換法(single imputation)通常也被叫做回歸替換法(regression imputation),在該個案的其他變數值都是通過回歸估計得到的情況下,這種
方法用缺失數據的條件期望值對它進行替換。這雖然是一個無偏估計,但是卻傾向於低估標准差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。
多重替代法(multiple imputation)(Rubin, 1977) 。
它從相似情況中或根據後來在可觀測的數據上得到的預設數據的分布情況給每個預設數據賦予一個模擬值。結合這種方法,研究者可以比較容易地,在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷(Little and Rubin,1987; ubin,1987, 1996)。
⑤ 缺失值怎麼處理
缺失值分為用戶缺失值(User Missing Value)和系統缺失值(System Missing
Value)。用戶缺失值指在問卷調查中,把被試不回答的一些選項當作缺失值來處理。用戶缺失值的編碼一般用研究者自己能夠識別的數字來表示,如「0」、「9」、「99」等。系統缺失值主要指計算機默認的缺失方式,如果在輸入數據時空缺了某些數據或輸入了非法的字元,計算機就把其界定為缺失值,這時的數據標記為「?」。
一、定義缺失值
SPSS有系統缺失值和用戶缺失值兩類缺失值,系統默認為None(無)。當需要定義缺失值時,單擊Missing下的含有「None」單元格,便進入圖2-4的「缺失值」窗口。缺失值有以下3種選項:
No missing values:沒有缺失值。
Discrete missing values:定義1~3個單一數為缺失值。
Range plus one optional discrete missing
values:定義指定范圍為缺失值,同時指定另外一個不在這一范圍的單一數為缺失值。
至於其他如單元格列長度(Columns)、單元格字元排列方向(Align)和數據量度(Measure)等均是不常用,一般使用系統默認值就可以了,以便減少工作量。
二、缺失值的處理
一般情況下,定義缺失值後的變數可以進行描述統計、相關分析等統計分析。但是,由於缺失值的出現往往會給統計分析帶來一些麻煩和誤差,尤其在時間序列分析中更是如此。在COMPUTE命令中,某個變數帶有缺失值,則帶有缺失值的個案也變成缺失值了。如圖所示:
一般地,對缺失值的處理可採用如下方法:
第一,替代法。即採用統計命令Transform→Replace Missing
Values進行替代,或在相關統計功能中利用其【Opions】等參數進行替代。例如對上圖表中的數據缺失值的處理:以T49這個變數中的所有數據的平均數為替代值,然後再進行COMPUTE命令處理。如圖所示:
第二,剔除法。即剔除有缺失值的題目,或剔除有缺失值的整份問卷。
⑥ eviews中運用某個股票的價格擬合ARIMA模型,如何處理其中的缺失值
eviews擬合ARIMA模型問題均可+名中我QQ來給以解決。
⑦ 數據清理中,處理缺失值的方法有哪些
刪除含有缺失值的個案
可能值插補缺失值
(1)均值插補
(2)利用同類均值插補。
(3)極大似然估計(Max Likelihood ,ML)
(4)多重插補(Multiple Imputation,MI)
⑧ 股票收盤價為缺失值時移動平均值該如何處理
股票移動平均線是按照實際交易周期計算的,以日線為例,如果當日沒有交易,就不計算,有幾天計算幾天.
例如10天內肯定會有周六周日,周六周日也不交易也不用計算在內,你看股票走勢圖上面那個時間不是連續的,所以說250日均線相當於年線
⑨ 股票開盤收盤成交量數據缺失怎麼補充
股票開盤收盤的成交量的數據缺失,可以重新卸載,安裝交易軟體就可以彌補這個損失
⑩ 在處理股票收盤價時,一般停牌日的缺失數據怎麼處理
在系統里有盤後數據下載
試試吧