事由
原本是听了内部分享关于”Auto Keras”的介绍,其中使用了自动化调参——贝叶斯优化(Bayesian Optimization)方法,好(bu)高(jue)大(ming)上(li),于是开始恶补知识,引发了连环车祸惨案…(非参模型、高斯过程、核技巧、先验函数、提取函数)
网上相关参考与资料确实很专业,但是对入门学习者太不友好,而且完全get不到原思想的intuition!还好我没有放弃抵抗…所以本篇会先介绍贝叶斯优化的基本思想与预备知识点,以便能更好的理解后续文章。
原本是听了内部分享关于”Auto Keras”的介绍,其中使用了自动化调参——贝叶斯优化(Bayesian Optimization)方法,好(bu)高(jue)大(ming)上(li),于是开始恶补知识,引发了连环车祸惨案…(非参模型、高斯过程、核技巧、先验函数、提取函数)
网上相关参考与资料确实很专业,但是对入门学习者太不友好,而且完全get不到原思想的intuition!还好我没有放弃抵抗…所以本篇会先介绍贝叶斯优化的基本思想与预备知识点,以便能更好的理解后续文章。
还是参考了苏神的系列文章:【中文分词系列】 2. 基于切分的新词发现,感觉作者好厉害,用不同的角度思考问题。原先是从“从语料中判断是否成词即不可切分”的角度出发,现在却反过来思考:若一个片段的内部凝固度低于一定程度时,则这个片段是不是就不成词,因此要被切分开。
主要思想是利用三个指标,即频数、凝固度(取对数之后就是点互信息)与自由度(边界熵)来判断一个片段是否成词,并参考了苏神的代码,详见参考部分。
最近懒癌犯的有点长,学了一些东西正好再系统梳理下。
之前需要对大量字符串进行模糊匹配,网上查了查发现fuzzyset第三方库刚好满足我的需求,而且原理简单(核心代码只有100行不到!)。但是由于业务自身需求,需要对源码进行一定的修改,这里记录下对源码的学习,方便自己以后查阅。
找个合适的决策函数即$h$函数(hypothesis),用来预测对输入数据的判断结果。这个过程较为关键,你要对数据有一定的了解或者知道预测函数的“大概”形式,比如线性函数还是非线性函数。
构造损失函数,该函数表示预估的结果($h$)与实际($y$)的差异。同时综合考虑所有样本点的“损失”,将Cost求平均,记为$J(\theta)$函数。
通过梯度下降法求$J(\theta)$函数的最小值,使得是预测与真实值之间的偏差达到最小。
方法 = 模型 + 策略 +算法。当我们想使用统计学习方法对数据进行建模时,首先考虑要用哪种模型建模(如线性模型);而策略是在给定模型的假设空间下(如线性函数构成的集合),如何选择最优模型(即模型参数的确定);算法则是指学习模型的具体计算方法(通常解析解不存在)。
最近在看一些开启心智类的书,想要养成经常思考的习惯。而网上对这本书的评价褒贬不一,但只要自己觉得有收获,那便是学到了。当书中的某些观点能打开你的思路(你甚至会感叹自己怎么就没有意识到),同时结合发生在周边的实例,去验证、补充、反驳,那么你就已经走向勤于思考的道路上了。本书的主旨是讲“如何利用规律与趋势,来放大个人努力,实现跨越式的成长即跃迁”。(图文无关,不过祖峰演的梅贻琦校长气质真的好!)
具体理论就不详细讲解了,网上一搜一大把。其核心思想就是: 朴素贝叶斯 = 条件独立假设 + 贝叶斯方法。运行速度快,在满足分布独立这一假设条件下分类效果好,但对于训练集中没有出现过的词语要平滑处理,数值型变量特征默认符合正态分布。