免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

Multi-Resolution Models for Learning Multilevel Abstract Representation of Text

Prof. Xiaowei Xus report 首先非常感谢徐晓伟教授精彩的报告。 下面是听报告过程中的一点记录,如有记错的地方,望予以指正。 关于数据表征:一般而言,一个好的表示可以使后续的学习任务更容易。选 择什么表示通常取决于后续的学习任务。我们可以将监督学习训练的前馈网络视为表示学习的一种形式 。 具体地,网络的最后一层通常是线性分类器,如~softmax~回归分类器。 网络的其余部分学习出该分类器的表示。 监督学习训练模型,一般会使得模型的各个隐藏层(特别是接近顶层的隐藏层)的表示能够更加...

继续阅读 »
分享到:

Clustering algorithms

本篇博客是关于 徐晓伟老师 *的讲课(数据管理新技术)笔记Clustering. 主要包括K-means和DBCAN算法。 定义: Grouping objects into sub-groups (clusters) # 等于对数据进行归纳,比如100万数据分成若干组,看不同自己的情况 such that: similar objects form a cluster dissimilar objects belong to different clusterts typically: a similar...

继续阅读 »
分享到:

再战字符编码问题!

参考廖雪峰老师的教程: https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896 再战字符编码问题! 首先,需要明确: 1字节(byte) = 8比特(bit) 1k = 1024字节(byte) 编码的历史(按时间顺序): 【一家独大,别人家使用不了】ASCII[1个字节](计算机是鹰酱家发明的,ASCII是仅适用于英文字母、数字和一些符号,即只有127个字符被编码到计算机中) 【多家鼎立,各家用各家的冲突明显】处理中文至少需要...

继续阅读 »
分享到:

两样本t检验

两样本 t t 检验主要用来检验两个样本是否来源于均值相等的分布。 现分别从两组抽取数据 \(x_{11},..., x_{1n_1}, x_{21},..., x_{2n_2}\) ,假设他们是从 \(N(\mu_1, \sigma^2_1)\) 与 \(N(\mu_2, \sigma^2_2)\) 两个分布抽取的样本,并希望检验零假设 ,接着计算: \[t = \frac{\bar{x_2} - \bar{x_1}}{SEDM}\] 其中,SEDM(Standard Error of Differenc...

继续阅读 »
分享到: