Python · 朴素贝叶斯(一)· 框架

Python · 朴素贝叶斯(一)· 框架

(这里是本章会用到的 GitHub 地址)

(话说知乎居然没有朴素贝叶斯的话题……呜呼 (ノへ ̄、))

========== 写在前面的话 ==========

对于我个人而言、光看这么一个框架是非常容易摸不着头脑的
毕竟之前花了许多时间在数学部分讲的那些算法完全没有体现在这个框架中、取而代之的是一些我抽象出来的和算法无关的结构性部分……
虽然从逻辑上来说应该先说明如何搭建这个框架,但从容易理解的角度来说、个人建议先不看这章的内容而是先看后续的实现具体算法的章节
然后如果那时有不懂的定义、再对照这一章的相关部分来看
不过如果是对朴素贝叶斯算法非常熟悉的观众老爷的话、直接看本章的抽象会引起一些共鸣也说不定 ( σ'ω')σ

========== 分割线的说 ==========

所谓的框架、自然是指三种朴素贝叶斯模型(离散、连续、混合)共性的抽象了。由于贝叶斯决策论就摆在那里、不难知道如下功能是通用的:

  • 计算类别的先验概率
  • 训练出一个能输出后验概率的决策函数
  • 利用该决策函数进行预测和评估

虽说朴素贝叶斯大体上来说只是简单的计数、但是想以比较高的效率做好这件事却比想象中的要麻烦不少(说实话麻烦到我有些不想讲的程度了)(喂)

总之先来看看这个框架的初始化步骤吧(前方……高能?!)

class NaiveBayes(ClassifierBase, metaclass=ClassifierMeta):
    """
        初始化结构
        self._x, self._y:记录训练集的变量
        self._data:核心数组,存储实际使用的条件概率的相关信息
        self._func:模型核心——决策函数,能够根据输入的x、y输出对应的后验概率
        self._n_possibilities:记录各个维度特征取值个数的数组
        self._labelled_x:记录按类别分开后的输入数据的数组
        self._label_zip:记录类别相关信息的数组,视具体算法、定义会有所不同
        self._cat_counter:核心数组,记录第i类数据的个数(cat是category的缩写)
        self._con_counter:核心数组,用于记录数据条件概率的原始极大似然估计
        self.label_dic:核心字典,用于记录数值化类别时的转换关系
        self._feat_dics:核心字典,用于记录数值化各维度特征(feat)时的转换关系
    """
    def __init__(self):
        self._x = self._y = None
        self._data = self._func = None
        self._n_possibilities = None
        self._labelled_x = self._label_zip = None
        self._cat_counter = self._con_counter = None
        self.label_dic = self._feat_dics = None

其中、self._con_counter[d][c][p] =\hat p(x^{(d)}=p|y=c)(con是conditional的缩写)

(注释比代码还多是想闹哪样???(╯‵□′)╯︵┻━┻)

总之和我一样懵逼了的观众老爷们可以先不太在意这一坨是什么玩意儿,毕竟这些东西是抽象程度比较高的属性……等结合具体算法时、这些属性的意义可能就会明确得多

下面进入正题……首先来看怎么计算先验概率(直接利用上面的 self._cat_counter属性即可)

def get_prior_probability(self, lb=1):
    return [(_c_num + lb) / (len(self._y) + lb * len(self._cat_counter))
            for _c_num in self._cat_counter]

其中参数 lb 即为平滑项,默认为 1 意味着默认使用拉普拉斯平滑

然后看看训练步骤能如何进行抽象

def fit(self, x=None, y=None, sample_weight=None, lb=1):
    if x is not None and y is not None:
        self.feed_data(x, y, sample_weight)
    self._func = self._fit(lb)

(岂可修不就只是调用了一下 feed_data 方法而已嘛还说成抽象什么的行不行啊!)

其中用到的 feed_data 方法是留给各个子类定义的、进行数据预处理的方法;然后 self._fit 可说是核心训练函数、它会返回我们的决策函数 self._func

最后看看怎样利用 self._func 来预测未知数据

def predict(self, x, get_raw_result=False):
    # 调用相应方法进行数据预处理(这在离散型朴素贝叶斯中尤为重要)
    x = self._transfer_x(x)
    # 只有将算法进行向量化之后才能做以下的步骤
    m_arg, m_probability = np.zeros(len(x), dtype=np.int8), np.zeros(len(x))
    # len(self._cat_counter) 其实就是类别个数
    for i in range(len(self._cat_counter)):
        # 注意这里的 x 其实是矩阵、p 是对应的“后验概率矩阵”:p = p(y=i|x)
        # 这意味着决策函数 self._func 需要支持矩阵运算
        p = self._func(x, i)
        # 利用 Numpy 进行向量化操作
        _mask = p > m_probability
        m_arg[_mask], m_probability[_mask] = i, p[_mask]
    # 利用转换字典 self.label_dic 输出决策
    # 参数 get_raw_result 控制该函数是输出预测的类别还是输出相应的后验概率
    if not get_raw_result:
        return np.array([self.label_dic[arg] for arg in m_arg])
    return m_probability

其中 self.label_dic 大概是这个德性的:比如训练集的类别空间为 {red, green, blue} 然后第一个样本的类别是 red 且第二个样本的类别是 blue、那么就有

self.label_dic = np.array(["red", "blue", "green"])

以上就是朴素贝叶斯模型框架的搭建,下一章会在该框架的基础上实现离散型朴素贝叶斯模型

希望观众老爷们能不讨厌ヽ(・ω・。)ノ

猛戳我进入下一章! ( σ'ω')σ

编辑于 2017-03-24

文章被以下专栏收录