机器学习问答

机器学习模型有哪些？
有监督线性分类器，包括KNN，线性分类(LDA)，广义线性分类（Logistic)等。
有监督线性回归，包括线性回归，LASSO/ridge回归等。
有监督非线性分类器，包括SVM，随机森林（决策树）和神经网络等等。
无监督分类器，包括PCA，Kmeans等等。
回归同分类目标函数的区别是什么？
回归计算的是预测同实际值最小二乘法的误差。而分类计算的是分类后总体的交叉信息熵。
SVM的模型及目标函数，优化方法和正则化方法分别是什么？
将所有点升至N维度，通过最小二乘法计算误差值，其中去掉到超平面距离小于松弛变量的点，找到最优超平面。如何得到超平面的公式需要再复习
优化方法是核函数，原函数d维，共m个点，最高需要m+d维分开，而通过高斯核或者线性核，可以隐性映射到较低维空间。
正则化还未了解。
决策树的模型，目标函数，优化方法和正则化方法分别是什么？
决策树是通过选取的多个特征，进行多次二分类后，将样本分类至尽可能纯的子叶节点下。
决策树的目标函数就是分类和子节点的交叉熵最小。
优化方法有bagging（随机采样,多分类和回归）,boosting（Adaboost，gbdt,对表现好的节点给予更高权重，二分类)和随机森林（对样本和feature都进行随机采样）。以及ensembl(这几个的融合方法)。
决策树的正则化通过交叉熵，以及分类复杂度的幂函数（控制树的大小和节点数目）来避免过拟合。对于叶节点，也会采用dropout的方法正则化。

Shaliu's Blog

机器学习问答

Search

Table of Contents