數(shù)據(jù)分析領(lǐng)域中最為人稱道的七種降維方法
2015-09-30 23:51:48 來源: 浙江易網(wǎng)科技股份有限公司(杭州)
近來由于數(shù)據(jù)記錄和屬性規(guī)模的急劇增長,大數(shù)據(jù)處理平臺和并行數(shù)據(jù)分析算法也隨之出現(xiàn)。
近來由于數(shù)據(jù)記錄和屬性規(guī)模的急劇增長,大數(shù)據(jù)處理平臺和并行數(shù)據(jù)分析算法也隨之出現(xiàn)。于此同時,這也推動了數(shù)據(jù)降維處理的應(yīng)用。實際上,數(shù)據(jù)量有時過猶不及。有時在數(shù)據(jù)分析應(yīng)用中大量的數(shù)據(jù)反而會產(chǎn)生更壞的性能。
最新的一個例子是采用 2009 KDD Challenge 大數(shù)據(jù)集來預(yù)測客戶流失量。 該數(shù)據(jù)集維度達到 15000 維。 大多數(shù)數(shù)據(jù)挖掘算法都直接對數(shù)據(jù)逐列處理,在數(shù)據(jù)數(shù)目一大時,導(dǎo)致算法越來越慢。該項目的最重要的就是在減少數(shù)據(jù)列數(shù)的同時保證丟失的數(shù)據(jù)信息盡可能少。
以該項目為例,我們開始來探討在當(dāng)前數(shù)據(jù)分析領(lǐng)域中最為數(shù)據(jù)分析人員稱道和接受的數(shù)據(jù)降維方法。
缺失值比率 (Missing Values Ratio)
該方法的是基于包含太多缺失值的數(shù)據(jù)列包含有用信息的可能性較少。因此,可以將數(shù)據(jù)列缺失值大于某個閾值的列去掉。閾值越高,降維方法更為積極,即降維越少。

最新報道
- “易網(wǎng)情深”呂洋波: 不想創(chuàng)業(yè)的碼農(nóng)不是好...09/15
- 15家大數(shù)據(jù)公司被調(diào)查,行業(yè)面臨大清洗?...09/15
- 萬億規(guī)模大數(shù)據(jù)變現(xiàn)的中國路徑選擇...09/15
- 大數(shù)據(jù)時代,選擇易網(wǎng)就是選擇了財富...09/15
- 易網(wǎng)股份新三板掛牌上市 2016年1-2月營收29...09/15
- 易網(wǎng)科技與浙大網(wǎng)新建立戰(zhàn)略合作伙伴關(guān)系...09/15
- 呂洋波:易網(wǎng)科技會成功09/15
- 易網(wǎng)CEO呂洋波09/15
最新新聞
最新動態(tài)
最新技術(shù)