OveRBlowg

No pain no gain.

机器学习——特征选择与稀疏学习

特征选择 特征:描述物体的属性 特征的分类: 相关特征 无关特征 冗余特征:包含的信息能从其他特征推演出来 特征选择:从给定的特征集合中选出任务相关的特征子集,保证不丢失重要特征 原因: 减轻维度灾难:少量特征构建模型 降低学习难度:留下关键信息 特征选择的可行方法: 子集搜索 用贪心策略选择包含重要信息的特征子集: 前向搜索:逐渐增加相关...

机器学习——降维和度量学习

k近邻学习 k近邻(k-nearest neighbor,kNN)学习是一种监督学习方法 确定训练样本和距离度量 对于某个给定的测试样本,找到训练集中距离最近的k个样本;对于分类问题使用“投票法”获得预测结果,回归问题使用“平均法”。还可以基于距离进行加权平均或加权投票 投票法:选择k个样本最多的类别 平均法:选择k个样本的实值输出标记的平均值 ...

机器学习——集成学习EnsembleLearning

个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来提升性能 假设一个二分类问题,集成通过简单投票法结合T个分类器,每个基分类器错误率相互独立,则有Hoeffding不等式可得集成错误率为 \[P(H(x)\ne f(x))=\sum\limits_{i=1}^T \begin{pmatrix}T\\ k\end{pmatrix} (1-\epsil...

机器学习——聚类

聚类任务 在”无监督学习”任务中研究最多、应用最广 聚类目标:将数据集的样本划分为若干个通常不相交的子集(“簇”,cluster) 聚类既可以作为一个单独的过程(寻找数据内在的分布结构),也可作为分类等其他学习任务的前驱过程 形式化描述 假定样本集 $D={x_1,\dots,x_m}$ 包含m个无标记样本,每个样本 $x_i=(x_{i1},\dots,x_{in})$ 是一个n...

机器学习——支持向量机SVM

间隔与支持向量 线性模型:在样本空间中寻找一个超平面,将不同类别的样本分开 超平面方程: $w^T+b=0$ 最大间隔:寻找参数 $(w,b)$ ,使得 $\gamma$ 最大 \[\mathop{\arg\max}\limits_{w,b}\frac{2}{\Vert w\Vert} \\ s.t.\quad y_i(w^Tx_i+b)\ge 1,i=1,2,\dots,m \...

机器学习——贝叶斯Bayes

贝叶斯决策论 贝叶斯决策论(bayesian decision theory)是在概率框架下实施决策的基本方法 在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记 假设有N中可能的类别标记,即 $y={c_1,\dots,c_N}$ , $\lambda_ij$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i...

机器学习——线性模型

线性模型 线性回归 离散属性的处理:如果有“序”(order),则连续化;否则,转化为k维向量 令均方误差最小,有 \[(w^*,b^*)=\mathop{\arg\min}\limits_{(w,b)}\sum_{i=1}^m (y_i-wx_i-b)^2\] 对 $E_{(w,b)}$ 进行最小二乘参数估计 多元线性回归 令 $\hat{w}={w;b},w\in\ma...

机器学习——神经网络

神经网络 神经网络是一个具有适应性的简单单元组成的广泛并行互联的网络,神经网络学得的知识蕴含在连接权重和阈值中 激活函数 理想激活函数是阶跃函数,0表示抑制神经元而1表示激活神经元 阶跃函数具有不连续性、不光滑等不好的性质,常用的是Sigmoid函数 多层前馈网络结构 多层前馈网络有强大的表示能力:只需要足够多神经元的隐层,多层前馈网络就能以任意精度逼近任意复...

机器学习——模型的评估和选择

绪论 基本术语 学习过程:在所有假设hypothesis组成的空间中进行搜索的过程 版本空间(version space):找到与训练集一致的假设集合 归纳偏好(inductive bias):机器学习算法在学习的过程中对某种假设的偏好,任何一个有效的的机器学习算法必有其其偏好;一般遵循奥卡姆剃刀原则 学习算法的归纳...

机器学习——决策树Decision Tree

决策树模型 决策树基于”树“结构进行决策 内部节点:某个属性上的”测试“(test) 分支:对于测试的一种可能结果(属性的某个取值) 叶节点:预测结果 学习过程:通过对训练样本的分析来确定”划分属性“ 预测过程:将测试示例从根节点开始,沿着划分属性所构成的判定测试序列下行,知道叶节点 决策树算法历史: CLS(Concept Learning Sys...