贝叶斯优化(一)_预备知识

发表于 2019-03-16 | 分类于机器学习 | | 阅读次数

事由

原本是听了内部分享关于”Auto Keras”的介绍，其中使用了自动化调参——贝叶斯优化（Bayesian Optimization）方法，好(bu)高(jue)大(ming)上(li)，于是开始恶补知识，引发了连环车祸惨案…（非参模型、高斯过程、核技巧、先验函数、提取函数）

网上相关参考与资料确实很专业，但是对入门学习者太不友好，而且完全get不到原思想的intuition！还好我没有放弃抵抗…所以本篇会先介绍贝叶斯优化的基本思想与预备知识点，以便能更好的理解后续文章。

阅读全文 »

新词发现(2)——基于切分

发表于 2019-03-11 | 分类于 NLP | | 阅读次数

还是参考了苏神的系列文章：【中文分词系列】 2. 基于切分的新词发现，感觉作者好厉害，用不同的角度思考问题。原先是从“从语料中判断是否成词即不可切分”的角度出发，现在却反过来思考：若一个片段的内部凝固度低于一定程度时，则这个片段是不是就不成词，因此要被切分开。

阅读全文 »

新词发现(1)——核心代码解读

发表于 2019-03-09 | 分类于 NLP | | 阅读次数

主要思想是利用三个指标，即频数、凝固度（取对数之后就是点互信息）与自由度（边界熵）来判断一个片段是否成词，并参考了苏神的代码，详见参考部分。

阅读全文 »

fuzzyset源码解读

发表于 2019-03-06 | 分类于 NLP | | 阅读次数

起因

最近懒癌犯的有点长，学了一些东西正好再系统梳理下。

之前需要对大量字符串进行模糊匹配，网上查了查发现fuzzyset第三方库刚好满足我的需求，而且原理简单（核心代码只有100行不到！）。但是由于业务自身需求，需要对源码进行一定的修改，这里记录下对源码的学习，方便自己以后查阅。

阅读全文 »

决策树之必知必会

发表于 2018-05-22 | 分类于机器学习 | | 阅读次数

决策树算法算是一个很经典的算法了，既可以分类，也可以做回归，同时适合集成学习。

阅读全文 »

Logistic Regression 模型

发表于 2018-05-01 | 分类于机器学习 | | 阅读次数

基本原理

找个合适的决策函数即$h$函数（hypothesis），用来预测对输入数据的判断结果。这个过程较为关键，你要对数据有一定的了解或者知道预测函数的“大概”形式，比如线性函数还是非线性函数。
构造损失函数，该函数表示预估的结果（$h$）与实际（$y$）的差异。同时综合考虑所有样本点的“损失”，将Cost求平均，记为$J(\theta)$函数。
通过梯度下降法求$J(\theta)$函数的最小值，使得是预测与真实值之间的偏差达到最小。

阅读全文 »

统计学习方法（1）- 概论

发表于 2018-04-09 | 分类于机器学习 | | 阅读次数

统计学习三要素

方法 = 模型 + 策略 +算法。当我们想使用统计学习方法对数据进行建模时，首先考虑要用哪种模型建模(如线性模型)；而策略是在给定模型的假设空间下（如线性函数构成的集合），如何选择最优模型（即模型参数的确定）；算法则是指学习模型的具体计算方法（通常解析解不存在）。

阅读全文 »

读《跃迁-成为高手的技术》

发表于 2018-01-26 | 分类于读书笔记 | | 阅读次数

前言

最近在看一些开启心智类的书，想要养成经常思考的习惯。而网上对这本书的评价褒贬不一，但只要自己觉得有收获，那便是学到了。当书中的某些观点能打开你的思路（你甚至会感叹自己怎么就没有意识到），同时结合发生在周边的实例，去验证、补充、反驳，那么你就已经走向勤于思考的道路上了。本书的主旨是讲“如何利用规律与趋势，来放大个人努力，实现跨越式的成长即跃迁”。（图文无关，不过祖峰演的梅贻琦校长气质真的好！）

阅读全文 »

11月内部建模比赛总结（一）评价风控的标准

发表于 2018-01-10 | 分类于机器学习 | | 阅读次数

前言

好几个月都没写点东西，更新博客了。果然，懒惰是人类的天性啊！趁着记忆清晰，对前些日子部门内部的建模比赛进行知识梳理，总结经验与心得，加深印象，以备不时之需。

阅读全文 »

朴素贝叶斯-新闻文本分类

发表于 2017-09-09 | 分类于机器学习 | | 阅读次数

「朴素贝叶斯」

具体理论就不详细讲解了，网上一搜一大把。其核心思想就是： 朴素贝叶斯 = 条件独立假设 + 贝叶斯方法。运行速度快，在满足分布独立这一假设条件下分类效果好，但对于训练集中没有出现过的词语要平滑处理，数值型变量特征默认符合正态分布。

阅读全文 »