① 怎樣把數據歸一化到-1到1
很簡單,用函數mapminmax,文檔太長我就不翻譯了,只提醒幾個關鍵
1 默認的map范圍是[-1, 1],所以如果需要[0, 1],則按這樣的格式提供參數:
MappedData = mapminmax(OriginalData, 0, 1);
2 只按行歸一化,如果是矩陣,則每行各自歸一化,如果需要對整個矩陣歸一化,用如下方法:
FlattenedData = OriginalData(:)'; % 展開矩陣為一列,然後轉置為一行。
MappedFlattened = mapminmax(FlattenedData, 0, 1); % 歸一化。
MappedData = reshape(MappedFlattened, size(OriginalData)); % 還原為原始矩陣形式。此處不需轉置回去,因為reshape恰好是按列重新排序
文檔全文如下:
mapminmax
Process matrices by mapping row minimum and maximum values to [-1 1]
Syntax
[Y,PS] = mapminmax(YMIN,YMAX)
[Y,PS] = mapminmax(X,FP)
Y = mapminmax('apply',X,PS)
X = mapminmax('reverse',Y,PS)
dx_dy = mapminmax('dx',X,Y,PS)
dx_dy = mapminmax('dx',X,[],PS)
name = mapminmax('name');
fp = mapminmax('pdefaults');
names = mapminmax('pnames');
remconst('pcheck',FP);
Description
mapminmax processes matrices by normalizing the minimum and maximum values of each row to [YMIN, YMAX].
mapminmax(X,YMIN,YMAX) takes X and optional parameters
X
N x Q matrix or a 1 x TS row cell array of N x Q matrices
YMIN
Minimum value for each row of Y (default is -1)
YMAX
Maximum value for each row of Y (default is +1)
and returns
Y
Each M x Q matrix (where M == N) (optional)
PS
Process settings that allow consistent processing of values
mapminmax(X,FP) takes parameters as a struct: FP.ymin, FP.ymax.
mapminmax('apply',X,PS) returns Y, given X and settings PS.
mapminmax('reverse',Y,PS) returns X, given Y and settings PS.
mapminmax('dx',X,Y,PS) returns the M x N x Q derivative of Y with respect to X.
mapminmax('dx',X,[],PS) returns the derivative, less efficiently.
mapminmax('name') returns the name of this process method.
mapminmax('pdefaults') returns the default process parameter structure.
mapminmax('pdesc') returns the process parameter descriptions.
mapminmax('pcheck',FP) throws an error if any parameter is illegal.
Examples
Here is how to format a matrix so that the minimum and maximum values of each row are mapped to default interval [-1,+1].
*
x1 = [1 2 4; 1 1 1; 3 2 2; 0 0 0]
[y1,PS] = mapminmax(x1)
Next, apply the same processing settings to new values.
*
x2 = [5 2 3; 1 1 1; 6 7 3; 0 0 0]
y2 = mapminmax('apply',x2,PS)
Reverse the processing of y1 to get x1 again.
*
x1_again = mapminmax('reverse',y1,PS)
Algorithm
It is assumed that X has only finite real values, and that the elements of each row are not all equal.
*
y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin;
② 股票數據分析方法
股票價格的漲跌,簡單來說,供求決定價格,買的人多價格就漲,賣的人多價格就跌。做成買賣不平行的原因是多方面的,影響股市的政策面、基本面、技術面、資金面、消息面等,是利空還是利多,升多了會有所調整,跌多了也會出現反彈,這是不變的規律。
③ 數據歸一化
為了減少訓練過程中網路權值的調整幅度,消除原始數據值的大小對網路學習過程的影響,需要對數據進行歸一化處理。利用mapminmax( )函數對待模擬數據S和訓練數據P進行歸一化處理(歸一化到[-1,1]),得到輸出數據sn和pn,sn的部分數據如表9.1所示,pn如表9.2所示。
表9.1 歸一化後sn部分數據
續表
表9.2 P歸一化後的數據(pn)
④ 用什麼軟體或者方法能夠快速對大量數據進行歸一化處理
sql 關鍵索引,在大表上創建索引
千萬記錄的表不算大,只要索引創建對了,性能可以正常提升,
還有一種就是比較偏的方式:先把需要批量的資料庫插入臨時表
這個可以防止頻繁對表進行查詢操作,
sql
如下:select
*
into
#temp
from
table
後面就只需要對臨時表操作,不允許主表性能。
⑤ 如何進行數據的歸一化處理
比如對A1到A10中的是個數進行歸一化處理,就是分別計算每個數占這是個數這和的百分比,可以用公式計算,不是很難,例如:在單元格B1中輸入「=A1/sum($A$1:$A$10)",點擊B1右下角的黑十字下拉到B10放開滑鼠,b列的結果就是你要的歸一化結果。數據多的話只需改動公式中sum函數的引用位置,如A列有100個數,B1中改為」=A1/sum($A$1:$A$100)「
⑥ 數據歸一化處理怎麼弄
歸一化,就是把原來數據范圍縮小(或放大)到 0 和 1 的范圍。
例如 RGB(紅綠蘭)顏色,原來范圍 紅綠蘭 分別是 十六進制 0 到 0xFF.
歸一化,變 到 0 到 1 的范圍,只要分別 除以 0xFF,就可以了。
另一種RGB歸一化,是把RGB變 HSV / HSL。顏色可以用色度 0到1來表示。(有公式計算)。
再例如,屏幕上1點位置,你可以用x,y幾何尺寸表示,可以用x,y,pixel表示。歸一化,就是把位置坐標變成0到1表示。
只要把 原 x 除以屏幕寬度 w, 原 y 除以屏幕高度 H, 就可以了。
數學上 歸一化,就是物理上 「無因次化」。
⑦ 通達信擴展數據使用方法
功能簡述:實現對指定股票實現指定數據范圍內的指標輸出進行橫向排序統計。
進入方式
功能——公式系統——擴展數據管理器或用鍵盤精靈輸入.902
操作步驟
⑴雙擊上方的數據行進行數據N的設置,進入下方的設置界面
⑵選擇需要的數據來源(可選擇范圍是所有的技術指標公式)
⑶設置所選擇的指標公式的參數
⑷設置計算的k線范圍(可以計算最近500根k線數據、指定自己需要的時間段、和對所有下載的本地數據進行三種模式)
⑸命名數據名稱
⑹選擇指標計算周期。選擇周期後顯示相應的輸出值還是遵循小周期引用大周期不要大周期引用小周期的原則。
⑺選擇要計算和輸出的指標公式輸出數據項
⑻選擇計算股票范圍
⑼選擇輸出數值的形式
不選擇「生成橫向排序數據」則輸出是上方選擇的指標輸出值如果選擇了 就是顯示根據此指標輸出值大小進行橫向統計的排序結果。
歸一化排序:將所有計算排序結果的數值限定在歸一化的數值范圍內不會有超過設定的歸一化區間。
副圖中顯示擴展數據輸出
DCC:EXTDATA_USER(1,1);
DCC1:EXTDATA_USER(2,1);
{EXTDATA_USER(N,TYPE),N取(1-100),表示讀當前品種的N號擴展序列數據,TYPE:為1表示做平滑處理,沒有自定義數據的周期返回上一周期的值;為0表示不做平滑處理.}
⑧ 數據歸一化方法對比
地下水功能評價的要素指標多達30組項,彼此相互聯系、相互補充,又具有層次性和結構性,是一個有機整體。但是,30多個要素指標中,類型多樣,既有漸變規律的點源監測數據,又有斑塊狀高度均化的區片統計數據,還有通過地下水資源評價獲取的分區成果數據,以及不連續、不全、無規律的數據。既有反映單一變數數據,又有抽象或相關分析數據,例如「比率」和「關聯度」等。如何使這些復雜的數據服務於地下水功能評價,反映地下水功能及不同次屬性的時空特徵或狀況,既要容納較齊全的信息量,又要求最大限度地降低重疊度和減小混沌度,同時還要明顯地反映出不同層次的狀況等級特徵,反映地下水的資源、生態、環境功能方面的30個指標量綱不一致,反映問題的角度不同。為使這些指標之間具有可比性,從而完整地組合到一起,實現對研究區各功能和屬性較准確地描述或表達,唯一辦法是將不同單位表示的指標作無量綱化處理,同時還不能改變原指標的數據排序和等級關系,保證變數的信息不失真。因此,需要對所有指標歸一化[0,1]的標准化處理。
指標無量綱、歸一化的方法很多,各有其特點。哪一種方法適宜地下水功能評價的數據歸一化,這是一個需要重視的問題,否則會影響最終的評價結果。本節通過對不同類型的數據採用不用方法對比和分析,確定了比較適宜地下水功能評價數據最後合適的標准化方法。
(一)數據狀況
地下水功能評價與區劃指標體系是針對我國北方地區。在西北、華北或東北不同地區開展地下水功能評價與區劃,需要根據工作區實際情況從34個指標選取或增補。包括地下水的補給資源佔有率、儲存資源佔有率、可利用資源佔有率、補儲更新率、補給可用率、補采平衡率、降水補給率、水位變差補給比、水位變差開采比、水位變差降水比、可采資源模數、可用儲量模數、資源質量指數、資源開采程度、天然植被變化與地下水關聯度、綠洲變化與地下水關聯度、土地鹽漬化與地下水關聯度、土地質量與地下水關聯度、地面沉降與地下水關聯度、海咸侵與地下水關聯度、地下水質量與地下水關聯度和地下水補給變率與水位變差比。涉及包含的變數有區內獲取補給資源模數、儲存資源模數、可動用地下水儲存資源量、近5~12年年均開采量、近5~12年年均水位變差、近5~12年年均降水量、地面沉降量、實際開采量、天然植被變化(面積或其他指標)、綠洲變化(覆蓋率或其他指標)、土地鹽漬化程度情況和地下水質量等級共12組。
根據上述變數的表達形式,分為「數值型」和「非數值型」兩類指標。「數值型」指標是具體的數據,「非數值型」是相對等級的指標。「數值型」指標能夠直接代入「標准化公式」進行運算,然後比較和驗證,「非數值型」指標只能憑借專家意見給出評分。
(二)標准化計算公式
1.統計標准化法
這是廣泛使用的方法,公式為
區域地下水功能可持續性評價理論與方法研究
式中:Zi為標准化後數值;Xi為原始數據;
2.極值標准化法
極值標准化方法是將一列數據的最小值和最大值作為[0,1]的界限值,然後通過式(5-2)轉換,使該列所有數據轉變成[0,1]之間數據,並保持原有的位置和相對大小等級特徵。
區域地下水功能可持續性評價理論與方法研究
式中:min(Xi)和max(Xi)分別為指標Xi的最大值和最小值,其他同前。
3.定基轉化法
定基轉化法是一種比較簡單的歸一化方法,它採用最大值作為基值,通過式(5-3)公式將所有數據轉化為[0,1]之間的數據。
區域地下水功能可持續性評價理論與方法研究
式中:X0是用於比較的基準值,其他同前。
4.環基轉換法
環基轉化法適合於處理指數型序列數據的歸一化問題,計算公式為
區域地下水功能可持續性評價理論與方法研究
式中:Xi,Xi-1為原始數據,其他同前。
5.極值標准化修正法
極值標准化修正法是一種相對復雜的歸一化方法,它需要求解a,b兩個系數,主要優點是避免了「0」的出現。
計算公式為
區域地下水功能可持續性評價理論與方法研究
式中:a,b為一組數據的率定系數,不同組數據的系數各不相同。其他同前。
(三)各種方法對比與分析
歸一化方法選用的是否合適,影響到確定指標的標准化數據的區間分布,進而影響到指標的等級劃分。通過對式(5-1)至式(5-5)的適用范圍和特點對比與分析,認為式(5-1)和式(5-4)不適宜地下水功能評價基礎數據的歸一化處理。
1.不適宜公式及依據
(1)排除式(5-1)的原因
考慮到多元指標的比較和指標等級劃分,歸一化後的數據要求介於[0,1]之間,同時還要求標准化後的數據的離散程度或等級不應出現本質性改變。而式(5-1)處理的數據不都在[0,1]間,而且還有負值(表5-15)。因此,式(5-1)被排除。
表5-15 利用統計標准化處理的單元沉降量數據結果
續表
(2)排除式(5-4)的原因
式(5-4)適合於構造時間序列指數的數據歸一化處理,不適宜地下水功能所用的各種數據。
2.三類數據比較選擇最佳公式
數據標准化方法有多種,包括統計標准化、極值標准化、定基轉換、環比轉化和修正極值標准化方法。根據上述公式的適用范圍,排除統計標准化和環比轉化公式。下面採用三類數據對極值標准化、定基轉換和修正極值標准化公式進行驗證和篩選分析,以期從中選擇適合公式。
第三類數據為分類數據,沒有具體數值,也就不可能代入公式進行檢驗和比較,此類變數直接根據專家組打分,在[0,1]之間賦值,然後劃分到各等級。在這里重點對第一類和第二類數據進行驗證和比較。
(1)利用剖分單元前數據的規律性分析結果
採用頻數直方圖法對在華北平原地下水功能評價示範研究中所用的10組D層要素指標數據(每組數據5645個)進行規律性分析,其中橫軸表示數據的分組,縱軸表示頻數。為了觀察數據分布的特徵和規律,應保持組數和組距的等距,避免數據分布過於集中或分散。
調整的方法是利用Sturges提出的公式,確定組數(K)和組距(K=1+lgn/lg2,n為數據的個數;組距=[最大值-最小值]/組數)。
調整步驟如下:
A.確定組數
組數的多少,一般與數據本身特點及數據多少有關。實際分組時,應按照Sturges公式確定組數。在此基礎上,為避免出現部分組距間沒有數據分布的局限,可作適當調整。
B.確定組距
根據全部數據的最大值和最小值及數據組數,確定組距。為了便於計算,組距應取整數。
依照上述步驟,繪制10組單元數據的頻數直方圖,如圖5-9所示。
對比結果,8組直方圖形狀各不相同,差別較大,組距的數據變化明顯。這表明地下水功能評價所用基礎數據難以取得統一性規律。
圖5-9 實際資料頻數直方圖
(2)按數據空間分布特徵分類
在地下水功能評價中所有變數劃分為兩類:數值型數據和分類型數據。數值型數據通過標准化量化為評價所需要的數據,分類型數據沒有具體數據表達,量化評價時由專家組根據經驗在指標等級[0,1]區間直接賦值。示範研究過程中收集的資料有兩種形式,即圖件或源數據,圖件如資源分布圖、開采強度分布圖、給水度分布圖、水位變差圖等,都是根據實際觀測或調查的第一手數據資料繪制,在利用Excel繪制數據變化曲線時,需要反過來從圖件中提取數據。以源數據形式存在的則直接應用,查找不同變數的規律性。
數值型數據是否具有同樣的空間分布規律,能否可以根據資料數據再詳細分類,究竟單元剖分前數據有規律,還是剖分後數據有規律,或者兩者的數據分布都由一致的規律性,下面進一步分析。
A.利用單元剖分後數據找尋分布規律
在沒有確定採用何種歸一化方法之前,先總結10組變數的剖分單元數據分布規律,對其進行分類。通過數據分組後形成的頻數分布表,初步尋找數據分布的一些特徵和規律。為了探討地下水功能區劃多元指標之間的關系難題,首先基於單元水體的各變數之間的關系,提供單元系統的各「比率」、「關聯度」以及某些單一指標數據。在考慮研究區面積大小的條件下,把整個研究區劃分為5645個單元。因此,本次工作中首先繪制單元剖分後10組指標數據(每組數據5645個)的頻數直方圖,繪圖時橫軸表示數據分組,縱軸表示頻數,為了觀察數據分布的特徵和規律,注意調整組數和組距(組距等距),不使數據分布得過於集中和分散。調整每一個直方圖的組數和組距,在滿足所有變數都在圖中顯示、每一組距都有數據的基礎上,確定直方圖最後的分布形狀。Sturges提出的公式給出確定組數K(K=1+lgn/lg2,n為數據的個數)和組距(組距=(最大值-最小值)/組數)的經驗,步驟如下:①確定組數。組數的多少一般與數據本身的特點及數據的多少有關。實際分組時按照公式確定組數,在此基礎上為消除部分組距之間沒有數據分布的影響,作了適當調整。②確定各組的組距。組距的確定根據全部數據的最大值和最小值及所分的組數來確定,為便於計算,組距取整數。依照上述步驟,繪制了剖分單元的10組變數頻數直方圖(圖5-9),圖5-9中曲線為GAUSS曲線,似乎變化趨勢一致,觀察和比較後發現8組變數的直方圖形狀各自都不相同,而且差別很大,直方圖錯落變化,組距中的數據變化大起大落。因此,單元剖分後的數據整理後利用頻數直方圖不能發現不同指標之間的規律。沒有規律可言,也就無法進行分類,而且直方圖調整到什麼形狀最為合理是個模糊概念。所以,利用剖分後數據對評價指標變數進行分類不可行。
B.利用單元剖分前數據找尋規律
項目研究過程中收集的資料圖件,如資源分布圖、開采強度分布圖、給水度分布圖、水位變差圖等的表達形式只有兩種:分區或等值線,現在反過來從圖件提取數據,利用不同變數剖分前數據變化情況,查找不同變數的規律性。
指標變數剖分前數據分散性較強且量小,可以通過利用Excel軟體分析數據點的分布特徵來探究其中的分布規律。根據評價指標所受外界驅動力的來源不同,從評價體系的34個指標中,分別選取了受自然因素影響的典型指標,如晚更新世底板埋深、給水度和降水量,受人類活動驅動的指標,如開采強度、開采資源模數,還選取了受自然和人類綜合因素影響的指標,如資源分布圖、淺層地下水變差,囊括了地下水功能評價指標體系中的34個指標所受外界影響的三種類型。
這三種類型數據利用Excel繪制的效果圖如圖5-10所示。其中,資源分布圖、晚更新世底板埋深、淺層地下水變差和給水度分布圖數據幾乎呈直線分布,而開采強度、降水量和開采資源模數數據趨勢線轉折點較多,彎曲變化很明顯。主要原因是由於地層岩性從山前到中部平原依次為卵礫石、粗砂、細砂、粉砂,砂層厚度逐漸變薄。前一類數據的資源分布主要與砂層厚度和岩性有關。給水度數據主要受岩性、水文地質條件、地層埋藏條件等影響,曲線表現比較平緩。而淺層地下水變差雖然受開採的影響,但人為規定的數據變化等值線為等間距,所以數據變化趨勢也呈直線。此類數據劃為第一類變數數據。第二類數據中的開采強度和開采資源模數是描述與人類活動有關的數據,受自然條件、經濟發展、文明程度、社會水平等綜合因素的影響,數據變化沒有規律性。降水量數據雖然只是受到自然條件影響,但項目組在整理現狀資料時,只是收集到各縣的年平均降水量資料。而各縣在測降水量時程序、步驟、器材和觀測人員認真程度不一樣,所以即使鄰縣有的降水量數據也相差很多,表現在變化曲線上就為折線,彎曲點很多。因此,把受人為因素影響佔主導的數據歸為第二類變數。如果收集到的降水量資料為整個研究區的降水量分布圖,表現形式為降水量等值線或降水量分區圖,此時可以把降水量指標劃歸為第一類變數數據。
在下面數據變化趨勢中只羅列了34組變數中的7組典型數值型變數,還有地下水質量分布、土壤鹽漬化程度分區、礦化度分布等變數數據沒有繪制數據變化曲線。這類變數為分類數據,只是劃分等級,沒有具體的數據表示。例如地下水質量分布按照國家地下水質量標准劃分為Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ級,土壤鹽漬化分區劃分為極重度鹽漬化、重度鹽漬化、中度鹽漬化和輕度鹽漬化,地下水礦化度分布按照1g/L,1~3g/L,3~5g/L,﹥5g/L劃分為淡水、半鹹水、微鹹水和鹹水四類。此類分類數據劃分為第三類變數。在地下水功能評價指標體系中還有一些變數屬於分類數據,如土地沙化狀況、土地質量(綜合指標)等,也都劃歸為第三類變數數據。
綜上所述,地下水功能評價與指標體系的指標變數數據分為三類數據:第一類為主要受自然影響的自然變化規律數據,第二類為主要受人類活動影響的變數數據,第三類為分類變數數據。
圖5-10 地下水功能評價中指標的原始數據分析
所以,按數據空間分布特徵將各類數據劃分為連續漸變型數字數據(即規律性數據,記作CR類數據)、非規律性數字數據(記作NR類數據)和非數字性的定性數據(記作NF類數據)三類。
(3)利用單元剖分前數據規律性分析結果
地下水功能評價所用基礎數據,主要有三類:第一類是主要受自然因素影響而呈現規律性變化數據,如降水量;第二類為主要受人類活動影響而呈現規律性變化數據,如開采量;第三類屬於相對定性、依靠專家評價的數據,如地下水質量等級的數據。
對於上述三類數據,應用式(5-2)、(5-3)和(5-5)對比與分析,首先確定第三類數據只能依靠專家評分,建立[0,1]間值,直接進入單元資料庫參加評價。對於第一類數據和第二類數據的分析結果,如下面所述。
A.第一類數據分析結果
採用極值標准化公式(5-2):採用該方法標准化處理第一類數據之前,首先要採用遞增或遞減序列模式對原始數據進行排序(表5-16),盡量採用一種方法處理各組數據的排列,便於標准化後各組數據的比較。
從表5-16可見,利用式(5-2)標准化處理的第一類數據,其特點是:所有數據組的第一個數據都是「1」,最後一個數據都是「0」,中間數據逐漸過渡,而且所有數據都歸[0,1]間,基本符合地下水功能評價的技術要求。主要缺點是不管哪一組的第一個數據在該組中處於何種等級或重要性,都被歸一化「1」,成為「強」級;同理,各組的最後一個數據都被歸一化「0」,成為「弱」級。這樣處理,不利於區域性之間成果對比,也難以合理調整評價平台的基數。
表5-16 利用極值標准化法處理第一類數據的結果
採用定基轉換公式(5-3):採用該方法進行數據標准化,最重要的是每一組變數基準值的確定。表5-17為四組變數定基標准化處理後數據,其中所有變數的基準值都採用本系列的最大值。該方法的優點是所有數據標准化後全部集中在[0,1]之間,每組變數系列對應數據的順序沒有改變。基準值在取每組變數系列最大值的基礎上,公式(5-3)既承接了公式(5-2)簡捷、快速的特點,又沒有使數據失真,尤其利用式(5-3)標准化處理後的數據,擺脫了在最小值區域出現大片「0」的問題。缺點是①基準值難以選取。處理相同問題,考慮的角度不同,採用的基準值就不同,由此定基標准轉化後的數據反映到綜合評價指數中就會得到不同的R值。②最小值沒有確定性,數據分布區間不一致。在示範效驗時,每組變數的基準值都採用變數系列中的最大值,這樣,標准化後數據系列的最大封閉值都為1,最小值由本系列數據的最小數據決定,大小不一,易出現偏態現象。例如補給資源佔有率的最小值就為0.334,在(0,0.334)之間沒有數據過渡,難以克服原數據高度集中的局限性。另外,不同組的基準值無法統一。
採用式(5-3)標准化處理第一類數據的結果,如表5-17所示。
表5-17 利用定基轉換法標准化處理第一類數據的結果
採用修正極值標准化公式(5-5):採用該方法對變數數據標准化處理,可以克服上述幾種方法存在的問題,而且也不會出現最小值區域大片「0」問題(表5-18)。如果原始數據確實為「0」,標准化後數據也不會違背真實性,仍然為「0」,這種線性變換沒有使原數據組性質發生質變,從而保證信息表達的真實客觀性,同時修正了公式(5-2)的不足。相對於公式(5-3),該公式擺脫了基準值選取的不確定性,不會因基準值取值不同,得出不同的結果,而且,a,b值的求取簡便、快捷,沒有增加太大的工作量。所有變數標准化後都收斂到[0.99,0.01]區間,數據分布合理、有序,沒有數據堆積和偏態現象,便於比較。這種線性變換沒有使變數產生性質上的變形,從而保證信息沒有失真,提供給上一級屬性層合理真實信息,為屬性層綜合評價指數的計算結果提供准確的評價參數。
表5-18 利用式修正極值法標准化處理第一類數據的結果
a,b值的取值方法如下,對於地下水的補給資源變數,最大值為35,最小值為2.5,根據修正歸一化公式,建立對應方程組:
區域地下水功能可持續性評價理論與方法研究
解此方程組得出a,b值分別為1.15和5.74。依次類推,其他變數都可輕松得到a,b值。
B.第二類數據分析結果
採用極值標准化公式(5-2)對第二類數據標准化處理的結果,如表5-19所示,結論與第一類數據標准後情況相同。
表5-19 利用極值標准化處理第二類數據的結果
續表
採用定基轉換公式(5-3)標准化處理第二類數據的結果,如表5-20所示,結論與第一類數據標准後情況基本相同。
表5-20 利用定基轉換標准化處理第二類數據的結果
採用修正極值標准化公式(5-5)處理第二類數據的結果,如表5-21所示,結論與第一類數據標准後情況基本相同。
表5-21 利用修正極值標准化處理第二類數據的結果
通過上述利用不同公式對不同數組標准化的對比與分析,可獲得如下幾點認識:
1)式(5-1)和式(5-4)轉化功能及其轉化後的數據都不適宜地下水功能評價的數據標准化處理,式(5-2)、式(5-3)和式(5-5)具有可用性,各有優缺點。
2)採用式(5-2)標准化,在第一類和第二類數據中都出現「0」現象,容易造成最小值全部為「0」的現象,難以區別原始數據為「0」的客觀存在,因此,該法在地下水功能評價中應慎用或不用。
3)採用式(5-3)雖然可以排除「0」問題,但是「基準值」難統一,隨意性較大,而且若「基準值」選取不合理,容易發生數據偏向堆積問題,所以該法也不宜在地下水功能評價中應用。
4)採用式(5-5)能夠同時避免式(5-2)和(5-3)的不足,即最小值皆為「0」問題,也不會造成原始數據為「0」而標准化後非「0」問題,因此,式(5-5)可作為地下水功能評價基礎數據歸一化處理的首選公式。
⑨ 數據歸一化處理如何解決正向和負向數據問題
最最簡單的辦法是數據平移,所有正/負數據都加一個正數常量,常量需足夠大到讓所有數據都變為正數,之後再歸一化處理即可
⑩ 如何把矩陣內的數據歸一化處理
b=sqrt(sum(a.*a));
c = a./repmat(b,size(a,1),1);
c就是a經過歸一化的矩陣
當然也可以寫成一句話
a = a./repmat(sqrt(sum(a.*a)),size(a,1),1);