We are on the way


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索

贝叶斯优化(一)_预备知识

发表于 2019-03-16 | 分类于 机器学习 | | 阅读次数

事由

原本是听了内部分享关于”Auto Keras”的介绍,其中使用了自动化调参——贝叶斯优化(Bayesian Optimization)方法,好(bu)高(jue)大(ming)上(li),于是开始恶补知识,引发了连环车祸惨案…(非参模型、高斯过程、核技巧、先验函数、提取函数)

网上相关参考与资料确实很专业,但是对入门学习者太不友好,而且完全get不到原思想的intuition!还好我没有放弃抵抗…所以本篇会先介绍贝叶斯优化的基本思想与预备知识点,以便能更好的理解后续文章。

阅读全文 »

新词发现(2)——基于切分

发表于 2019-03-11 | 分类于 NLP | | 阅读次数

还是参考了苏神的系列文章:【中文分词系列】 2. 基于切分的新词发现,感觉作者好厉害,用不同的角度思考问题。原先是从“从语料中判断是否成词即不可切分”的角度出发,现在却反过来思考:若一个片段的内部凝固度低于一定程度时,则这个片段是不是就不成词,因此要被切分开。

阅读全文 »

新词发现(1)——核心代码解读

发表于 2019-03-09 | 分类于 NLP | | 阅读次数

主要思想是利用三个指标,即频数、凝固度(取对数之后就是点互信息)与自由度(边界熵)来判断一个片段是否成词,并参考了苏神的代码,详见参考部分。

阅读全文 »

fuzzyset源码解读

发表于 2019-03-06 | 分类于 NLP | | 阅读次数

起因

最近懒癌犯的有点长,学了一些东西正好再系统梳理下。

之前需要对大量字符串进行模糊匹配,网上查了查发现fuzzyset第三方库刚好满足我的需求,而且原理简单(核心代码只有100行不到!)。但是由于业务自身需求,需要对源码进行一定的修改,这里记录下对源码的学习,方便自己以后查阅。

阅读全文 »

决策树之必知必会

发表于 2018-05-22 | 分类于 机器学习 | | 阅读次数

决策树算法算是一个很经典的算法了,既可以分类,也可以做回归,同时适合集成学习。

阅读全文 »

Logistic Regression 模型

发表于 2018-05-01 | 分类于 机器学习 | | 阅读次数

基本原理

  1. 找个合适的决策函数即$h$函数(hypothesis),用来预测对输入数据的判断结果。这个过程较为关键,你要对数据有一定的了解或者知道预测函数的“大概”形式,比如线性函数还是非线性函数。

  2. 构造损失函数,该函数表示预估的结果($h$)与实际($y$)的差异。同时综合考虑所有样本点的“损失”,将Cost求平均,记为$J(\theta)$函数。

  3. 通过梯度下降法求$J(\theta)$函数的最小值,使得是预测与真实值之间的偏差达到最小。

阅读全文 »

统计学习方法(1)- 概论

发表于 2018-04-09 | 分类于 机器学习 | | 阅读次数

统计学习三要素

方法 = 模型 + 策略 +算法。当我们想使用统计学习方法对数据进行建模时,首先考虑要用哪种模型建模(如线性模型);而策略是在给定模型的假设空间下(如线性函数构成的集合),如何选择最优模型(即模型参数的确定);算法则是指学习模型的具体计算方法(通常解析解不存在)。

阅读全文 »

读《跃迁-成为高手的技术》

发表于 2018-01-26 | 分类于 读书笔记 | | 阅读次数

前言

最近在看一些开启心智类的书,想要养成经常思考的习惯。而网上对这本书的评价褒贬不一,但只要自己觉得有收获,那便是学到了。当书中的某些观点能打开你的思路(你甚至会感叹自己怎么就没有意识到),同时结合发生在周边的实例,去验证、补充、反驳,那么你就已经走向勤于思考的道路上了。本书的主旨是讲“如何利用规律与趋势,来放大个人努力,实现跨越式的成长即跃迁”。(图文无关,不过祖峰演的梅贻琦校长气质真的好!)

阅读全文 »

11月内部建模比赛总结(一)评价风控的标准

发表于 2018-01-10 | 分类于 机器学习 | | 阅读次数

前言

好几个月都没写点东西,更新博客了。果然,懒惰是人类的天性啊!趁着记忆清晰,对前些日子部门内部的建模比赛进行知识梳理,总结经验与心得,加深印象,以备不时之需。

阅读全文 »

朴素贝叶斯-新闻文本分类

发表于 2017-09-09 | 分类于 机器学习 | | 阅读次数

「朴素贝叶斯」

具体理论就不详细讲解了,网上一搜一大把。其核心思想就是: 朴素贝叶斯 = 条件独立假设 + 贝叶斯方法。运行速度快,在满足分布独立这一假设条件下分类效果好,但对于训练集中没有出现过的词语要平滑处理,数值型变量特征默认符合正态分布。

阅读全文 »
123
Junior Ni

Junior Ni

不忘初心,方得始终

25 日志
10 分类
20 标签
GitHub 简书
Links
  • 阮一峰的个人博客
  • 廖雪峰的官方网站
© 2017 - 2019 Junior Ni
由 Hexo 强力驱动
主题 - NexT.Mist
博客全站共31.0k字