主成分分析(Principal Component Analysis)

主成分分析(Principal Component Analysis)

主成分分析

principal component analysis ,PCA 主成分分析,可能是应用最广泛的无监督算法之一。

虽然PCA是一种基础的降维算法,但它仍然是一个非常有用的工具,尤其适用于数据可视化、噪音过滤、特征提取和特征工程等领域。

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
sns.set()
rng = np.random.RandomState(1)
X = np.dot(rng.rand(2,2), rng.randn(2,200)).T
plt.scatter(X[:,0],X[:,1])
plt.axis('equal');

与回归分析中希望根据x值预测y值的思路不同,无监督学习希望探索x值和y值之间的相关性。

在主成分分析中,一种量化量变量间关系的方法是在数据中找到一组主轴,并用这些主轴来描述数据集。

利用sklearn的PCA评估器,可以进行如下计算:

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)
PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)
print (pca.components_)
[[-0.94446029 -0.32862557]
 [-0.32862557  0.94446029]]
print (pca.explained_variance_)
[0.7625315 0.0184779]
def draw_vector(v0,v1,ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(arrowstyle='->', linewidth=2,shrinkA=0,shrinkB=0)
    ax.annotate('',v1, v0, arrowprops=arrowprops)

plt.scatter(X[:,0], X[:,1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector*3*np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ - v)
plt.axis('equal');
print pca
PCA(copy=True, iterated_power='auto', n_components=None, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

这些向量表示数据主轴,箭头的长度表示输入数据各个轴的重要程度。

更准确的说,它衡量了数据投影到主轴上的方差的大小。

每个数据点在主轴上的投影就是数据的主成分。

这种从数据的坐标轴变换到主轴的变换是一个仿射变换, 仿射变换包含平移、旋转、均匀缩放三个步骤。

用PCA降维

pca = PCA(n_components=1)
pca.fit(X)
X_pca = pca.transform(X)
print("original shape:", X.shape)
print("transformed shape:", X_pca.shape)
('original shape:', (200, 2))
('transformed shape:', (200, 1))
X_new = pca.inverse_transform(X_pca)
plt.scatter(X[:,0],X[:,1],alpha=0.2)
plt.scatter(X_new[:,0],X_new[:,1],alpha=0.8)
plt.axis('equal');

用PCA作数据可视化:手写数字

from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
(1797, 64)
pca = PCA(2)
projected = pca.fit_transform(digits.data)
print(digits.data.shape)
print(projected.shape)
(1797, 64)
(1797, 2)
plt.scatter(projected[:,0],projected[:,1],
            c=digits.target, edgecolor='none',alpha=0.5,
            cmap=plt.cm.get_cmap('rainbow',10))
plt.xlabel('component 1')
plt.ylabel('component 2')
plt.colorbar();

PCA 可以认为是选择最优基函数的过程,这样这些基函数中前几个加起来就足以重构数据集中的大部分元素。用地为形式表现数据的主成分,其实就是与序列每一个元素相乘的系数。

选择成分的数量

在实际使用PCA的过程中,正确估计用用户描述数据的成分的数量是非常重要的环节。我们可以将累计方差贡献率看做是关于成分数量的函数,从而确定所需成分的数量。

pca = PCA().fit(digits.data)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance');

这个曲线量化了在N个主成分中包含了多少总的64维的方差。

用PCA作噪音过滤

def plot_digits(data):
    fig,axes = plt.subplots(4, 10,figsize=(10,4),
                           subplot_kw={'xticks':[],'yticks':[]},
                           gridspec_kw=dict(hspace=0.1, wspace=0.1))
    for i, ax in enumerate(axes.flat):
        ax.imshow(data[i].reshape(8,8),cmap='binary')

plot_digits(digits.data)


np.random.seed(42)
noisy = np.random.normal(digits.data,4)
plot_digits(noisy)


pca = PCA(0.50).fit(noisy)
pca.n_components_
12
components = pca.transform(noisy)
filtered = pca.inverse_transform(components)
plot_digits(filtered)

主成分分析总结

由于PCA用途广泛、可解释性强,所以可有效应用与大量情景和学科中。

对于任意高维的数据集,我们倾向于以PCA分析开始,可视化点间的关系,理解数据中的主要方差,理解固有的维度。

当然PCA并不是总有效,但是他提供了一条直接有效的途径,来获得对高维数据的洞察。

还有一些有趣的PCA辩题。包括RandomizedPCA、SparsePCA等,

RandomizedPCA算法使用了一个非确定方法,快速地近似计算出一个维度非常高的数据的前几个主成分,

而SparsePCA引入了一个正则项,来保证成分的稀疏性

发布于 2018-10-16