最近,在浏览towardsdatascience上面的机器学习相关文章的时候,无意间看到一篇关于异常检测的文章,刚好与自己的工作内容有点契合,文章讲解的是两种分析思路:第一种、PCA + Mahalanobis;第二种、AutoEncoder训练模型进行检测。兴奋之下,决定将这篇文章分享出来,如果内容有理解不当的地方,还请读者指出,深表感谢。

原文链接: How to use machine learning for anomaly detection and condition monitoring

Read More »




前阵子,丫姐说18年快过了,看你以前每年都写总结,今年的总结什么时候写,写完告诉我,我去看看!

的确,一年又要过了。从读研那年起,就开始写年总结,久而久之,便成了一种习惯。记得还是14年的时候,少不经事,懵懵懂懂,写的内容也是东拼西凑,词不尽意,流水般的记录下自己一年的“奇葩”经历,犹如游记一般。现如今,五年过去了,虽然这两年没怎么写博文,但年度总结终归还是不能落下,毕竟,过了今天,又是一年呢!

Read More »

在前面的Perceptron - 原理与实现一文中介绍了神经网络的基础算法,通过该文我们初步了解了感知机的原理以及实现。本文将介绍神经网络以及训练网络使用的Backpropagation(反向传播)算法,进一步为学习深度学习打好基础。阅读之前,先说明一下,由于推导过程公式较多,在编辑过程中可能出现个别差错,如有读者发现存在纰漏,还请E-mail告知,多谢!

Read More »

背景介绍

上一篇文章中已经介绍过读写分离,并且通过代码也已实现局部的读写分离。为什么说是局部的呢?首先,来分析下,针对上一篇文章中提到的方法,如果在service层没有配置事务,那么当程序走到Dao层时,就可以根据自己定义的规则进行读写分离;倘若在service层配置了事物,那么在Dao切换数据库key的时候,是无法正真的进行读写分离的。因此,通过进一步的研究和尝试,找到了一种新的方法来实现真正意义上的Dao层读写分离,该方法可以在事务内部直接切换数据库,达到读写分库的功能。

Read More »

背景介绍

通常,在与数据库进行交互时,对数据库的操作都是“读多写少”,一方面,对数据库读取数据的压力比较大;另一方面,如果数据库分布在国内,那么在国外访问项目的时候,如果查询的接口较多,那么直接访问国内的数据库会大大的降低访问性能。因此,为了提升数据访问速度,缓解数据库的压力,我们可以在国外的服务器也安装一个mysql,部署一个项目,两个mysql进行主从配置,那么对于接口就需要采用读写分离策略,其基本思想是:将数据库分为主库和从库,主库只有一个,从库可有多个,主库主要负责写入数据,而从库则负责读取数据。

Read More »

回顾了下以前的博文,发现自己CSDN博客里面有的博文没有同步到这里来。出于温故知新的目的,打算将perceptron引入至此,并在原来的基础上稍作更改,下面请看正文。

Read More »

17年的总结,来的比往年晚了一些。记忆中还在回望着二零一六年十二月的点点滴滴,而如今又是一年。每年的总结,都夹带着一些伤感,今年似乎也不例外。

Read More »




『一张温馨图片,献给金秋九月.』

时隔大半年,回头看着这停滞不前的博客,心里忐忑不安,久久不平。上半年一直在为毕业忙碌,毕业之后进入工作状态,业余时间也就少了很多了。以前在学校的时候,很自由,能够腾出来写博客的实践是一大把,毕竟时间都是自己安排,能够充分地利用。如今进入公司,就不能这么随性了。所以,对于现在这个状态的自己,还是要好好计划好,工作肯定是不能耽误的,当然自己的博客也不能荒废了。

Read More »

前阵子,幸运的中了一篇BIBM regular paper,对于不打算继续攻读PhD的自己,整个硕士也算是没有遗憾了。这两天,隔壁实验室的导师又开始催着交论文初稿了,恍恍惚惚地才意识到,一年又到头了。这一年,去过很多城市,走过很多地方,也收获了许多曾经。零零碎碎的事情比较多,为了勉励下自己,还是决定写点东西。有时候感觉,一个人静静地坐在椅子上回想着过去的点点滴滴,会心地一笑,淡然地释怀那些不开心的往事,也算是一种觉悟、一种享受吧。

Read More »

在前几篇博文里,【模拟新浪微博登录:从原理分析到实现】一文介绍了如何登陆微博,【新浪微博数据爬取Part 1:用户个人信息】【新浪微博数据爬取Part 2:好友关系与用户微博】两篇文章介绍了如何爬取微博用户个人资料、关注者列表、粉丝列表以及发表的微博。那么,在这篇文章里,将介绍如何把前几篇的内容融合到一起,整合成一个完整的新浪爬虫框架。OK,让我们来见证一个爬虫的诞生吧^_^。

Read More »

上一篇博文新浪微博数据爬取Part 1:用户个人信息介绍了如何爬取用户个人资料,使用了BeautifulSoup以及正则表达式,最后得到了与用户有关的14个字段。在这篇文章里,将继续介绍如何爬取微博数据,爬取的内容包括用户的粉丝、用户的关注者、用户个人发表的微博三部分信息。博主知道,没有完整的项目源码支持,对于初学者来说,确实是一件不容易的事。所以,笔者打算先将每个部分的代码单独抽取出来,等到下一篇附上源码的同时,介绍如何运行整个爬虫项目。

Read More »

从上一篇博文到现在,已有一月有余,期间发生了许多事情,庆幸地是博主终于想开了,有的时候,那些无法改变的人或事,就让TA 去吧,不必多多挂怀,趁着还有时间,做些自己喜欢的事情。此前在模拟新浪微博登录:从原理分析到实现这篇博文中讲解了如何登陆新浪微博,虽然模拟登录看似比较复杂,但将其过程理解透彻之后,你会觉得它其实也比较简单。实现了登录,接下来就是新浪数据的爬取。本文是数据爬取的第一部分,以Python实现新浪用户个人信息的爬取,其余篇章将在后续博文中陆续给出。

Read More »

上一篇文章小试牛刀:使用Python模拟登录知乎介绍了如何模拟知乎登录,虽然用到了验证码信息,但请求的参数都是原封不动的传递,刚开始接触的时候,觉得难度适中,回头再看的时候,反而感觉挺容易的。在这篇文章,将继续介绍模拟登录。与之前不一样的是,这次选择的对象是新浪微博,难度稍微提升了点,好在以往的许多码友们都留有许多经验贴,经过几番斟酌,微博的模拟登录算是实现了。这两天还在研究如何高性能地爬取微博数据,业余之际乘着还有点记忆,索性将先前的小实验加工成文,算是一份小结吧。下面来看看整个实验过程。

Read More »

最近突然对爬虫兴趣倍增,主要是自己想从网上爬点数据来玩玩。前阵子从某房屋出售网爬取了长沙地区的房价以及2016年的成交额,只有几千条数据,量较少,没劲o(╯□╰)o,因此将目标成功地转移到了社交网上,难度显然大了点。爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取。做了几个小Demo之后发现,人人网的登录还比较简单,验证码的都不用就可以成功登录;知乎虽然携带验证码,但难度算是适中;微博的登录难度稍微大点,因为不仅有验证码,还在传递参数的时候对用户名进行了base64加密。在这篇博文里,主要是以知乎为例,模拟知乎登录,至于数据爬取部分咱们就暂且不谈吧。

Read More »

出于学习的目的,笔者决定将逻辑回归总结一次。本文主要介绍逻辑回归的推导,囊括Sigmoid函数、极大似然估计、损失函数以、梯度下降以及正则化。文章内容纯属总结性知识,并不是对LR进行大篇长论。如有理解不到位的地方,还请读者指出。

Read More »