Note of ICNC-FSKD & ICHSA 2019

hxy

No pains, no gains.

免责声明：网站内容仅供个人学习记录，禁做商业用途，转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记辽ICP备17017855号-2

Note of ICNC-FSKD & ICHSA 2019

hxy 2019年7月19日 23:18:46

首先解释一下ICNC-FSKD & ICHSA 涉及的领域：神经计算，模糊系统和知识发现，后面的ICHSA指的是和声搜索，软计算和应用。在去年的会议上，会议的名称就是ICNC-FSKD，没有涉及和声搜索的内容，而本次会议的名称中添加了ICHSA，邀请了许多South Korea 的学者介绍和声搜索。

Topics that probably interested in:

Support Vector Machines and Statistical Neural Network Models （支持向量机和统计神经网络模型）
Multi-Objective Optimization （多目标优化）
Nonlinear Phenomena, Chaos, Complex Networks and Systems （非线性系统，混沌，复杂网络和系统）
Natural Computation in Signal Processing and Multimedia （信号处理和多媒体中的自然计算）
Classification （分类）
Clustering （聚类）
Privacy Preserving Data Mining （隐私保护和数据挖掘）
Statistical Methods for Data Mining （数据挖掘中的统计方法）
Machine Learning and Artificial Intelligence （机器学习与人工智能）
High-Dimensional Data Mining （高维数据挖掘）
Temporal Data Mining （时态数据挖掘）
Big Data （大数据）
Semi-Structured/Unstructured Data Mining （半结构化-非结构化数据挖掘）
Web and Text Data Mining （网络和文本数据挖掘）
Graphic Model Discovery （图模型理论）

Keynote Lecture
1. Intergrated Circuit disign in the Artificial Intelligence Era.
Prof. Maciej Ogorzalek

Report content: Artificial Intelligence and specifically Deep Learning, has various domains of applicatios. power comsumption, speed of operation and reliability, scalability may become the major obstacles to be overcome. New roouting solutions offer very significant wire-length reductions thus reducing power dissipations and signal delays. 3D integration loos as a fantastic generation of nano systems. AI acceleration requires still better solutions.

Increase in brain size during human evolution. 随着人类的进化，大脑的容量逐渐增大。

The remarkable , yet not extraordinary, human brain as a scaled-up primate brain and its associated cost. 最为灵长类中规模较大的大脑，人来的大脑虽然很好了，但并非卓越。
Metabolic constraint. 例如，受新陈代谢的约束。
How complex are the brains? 人类的大脑有多复杂呢？
2000 billions of galaxies, in each ?

10^11

stars = >

10^23

stars and even

10^22

planets. 正如宇宙中有 20万亿个星系，10^11次方的恒星以及10^22次方个行星一样。
Microelectronic history. 微电子的了历史：其目标就是如何在芯片上放置更多的设备和控制单元。

How to put more devices / blocks on-chip?
1949, Wrner Jacobi, siemens AG filed a patent for a five- transistor amplifier.
Jack Kilby(Texas Instruments)
Why silicon is prevailing?

Current technologies are approaching their limits!

Size of circuit footprint (500mm^2) yield

cost exponiently.
Atoms are not scaled.
More challenges – Interconnects.

Multiple device layers.
Heterogeneous integrated.
How to realize connections between layers in a 3D interconnectors?
Big data processing is a prerequisite for AI. 数据变大，硬件限制，内存，并行化，新的设计理念，新的技术，混淆计算。

44ZB 2020. 175 ZB by 2025.

大牛一般都会留一个开放式的结尾，所以，下一代的芯片应该是什么呢？

2. Harmony Search for Computational Intelligence Applications in China.
Prof. Zong Woo Geem
Bio-Sketch: Zong Woo Geem is a Professor in Department of Energy IT at Gachon University, South Korea.
Report content: Harmony Search is a music-inspired algorithm for computational intelligence problems.
the basic structure of the harmony search algorithm, human-experience-based derivative and parameter-setting-free technique.
和声搜索算法(Harmony search， HS)是一种新兴的智能优化算法，通过反复调整记忆库中的解变量，使函数值随着迭代次数的增加不断收敛，从而来完成优化。算法概念简单、可调参数少、容易实现。类似于模拟退火算法对物理退火的模拟、遗传算法对生物进化的模仿、以及粒子群优化算法对鸟群的模仿等，和声算法模拟了音乐演奏的原理，它是 2001 年韩国学者 Geem Z W 等人提出的一种新颖的智能优化算法。算法模拟了音乐创作中乐师们凭借自己的记忆,通过反复调整乐队中各乐器的音调, 最终达到一个美妙的和声状态的过程。

上图是一个由7个人组成的乐队，每个人演奏一种乐器，它们的演奏加起来对应一组和声

X=\left\{x_1, x_2, x_3, x_4, x_5, x_6, x_7\right\}

，他们会进行不断的进行配合以及排练来得到最好的和声效果，整个过程使用一个

f(x)

函数来衡量和声的效果好坏，这个

f(x)

就相当于总指挥，对他们演奏出的每一组和声进行权衡，如果达不到要求就继续演奏，直到得到一组满意的和声为止，这就是和声算法的最优化过程。
理解几个定义：

和声库大小（ Harmony memory Size，HMS）：因为每个乐器演奏的音乐具有一定的范围，我们可以通过每个乐器的音乐演奏范围来构造一个解空间，然后通过这个解空间来随机产生一个和声记忆库，所以我们需要先为这个和声记忆库指定一个大小。
记忆库取值概率（Harmony memory considering rate, HMCR）：每次我们需要通过一定的概率来从这个和声记忆库中取一组和声，并且对这组和声进行微调，得到一个组新的和声，然后对这组新和声进行判别是否优于和声记忆库中最差的和声，这个判别使用的就是上面说的f(x)函数进行比较，所以，我们需要随机产生一个记忆库取值概率。
微调概率(Pitch adjusting rate, PAR)：上面已经说过，我们以一定的概率来在和声记忆库中选取一组和声，进行微调，这里指定的就是这个微调概率。
音调微调带宽 bw：上面说了会把从记忆库中取出的一组和声以一定的概率进行微调，这里指定就是这个调整幅度。
创作的次数 Tmax：这里指定的就是演奏家需要创作的次数，也就是上面整个调整过程需要重复多少次。

算法步骤：

初始化上面的五个变量
确定解空间。上面有7个乐器，每个乐器的乐器演奏都在一定的范围内，通过确定每个乐器的音乐演奏范围，确定一个解空间。
上面的N对应的就是7，表示有7种乐器，U表示音乐的上限，L表示音乐的下限，这样就为每个乐器的乐器确定了一个范围，整个组合对应的就是一个解空间。
初始化和声记忆库。首先会根据初始化的和声库大小HMCR和上面和声的解空间来随机的产生一个大小为HMCR的和声记忆库。
矩阵表示如下：
产生一个新和声。
在[0，1]之间随机的产生一个变量rand1，并且将rand1与上面初始化的HMCR进行比较。如果rand1小于HMCR，那么在上面初始化的和声记忆库中随机的得到一组和声，否则就在上面的解空间中随机的得到一组和声。最终，就得到一组和声，如果这组和声是从和声库中得到的，就需要对这组和声进行微调，在[0，1]之间随机的产生一个变量rand2。如果rand2小于上面初始化的PAR，就需要以上面初始化的微调带宽bw来对和声进行调整，得到一组新和声；否则，不做调整。可以看到上面进行了两次的变异过程，最终得到了一组和声。
更新和声库。将得到的新和声使用f(x)进行进行计算，如果这个新和声比上面初始化的和声库HM中最差的的解具有更好的目标函数解，那么将这新的和声替换掉和声库中那个最差的和声。
判断是否终止。根据上面初始化的创作的次数来看当前创作次数是否已经达到这个最大次数，如果没有，则重复4-5的过程，直到达到最大创作次数。

应用：
数独， 4秒

ESS energy
Max Multi-Objecties
Water Pump switch problems.
A self-adaptive glabal best harmony search algorithm for continus optimiztion .
Solving 0-1 knapsaack problem by a novel glabal …
Why HS works?

learning old, getting new.

morning 3, evening 4.

References:

Geem Z W . Music-Inspired Harmony Search Algorithm[J]. Studies in Computational Intelligence, 2009, 191:163-172.
Zong W G, Zong W G. Recent Advances in Harmony Search Algorithm[J]. Springer Berlin, 2010, 270.
Zong W G, Kwee-Bo Sim. Parameter-setting-free harmony search algorithm[J]. Applied Mathematics & Computation, 2010, 217(8):3881-3889.
Harmony search for generalized orienteering problem : best touring in China.
http://harmonysearch.info

3. Online Feature Selection via Deep Reconstruction Network.
Professor Ning Xiong

Report content:

Feature selection in setting of online learning of data streams.
Selecting a subset of features may lead to permanently ruling out the possibilities of using discarded dimensinos.
A new method of online feature selection to deal with drifting features in non-stationary data streams.

aims to select of subset of most important and relevent features to buid effective prediction models.
alleviating the curse of dimensionality
reducting computational complexity
increasing model accuracy
prevenence of over-fitting

Filter : measuring the correlation between features and outout classes.
independent of the learning alogirhtm
cheap in computing
features evaluated in isolation of each other

Wrapper: requiring model building to evaluate a feature subset.
low error in prediction
hgih computation expense
select the result depending on the model used .

Instances are created sequentially with open ends
Infeasible to use a tradional batch learning method
Data available only when being preocessed and one pass learning
drift: changing data distribution in non-stationary settings. Feature drift occurs when a subset of features becomes or ceases to
be relevant to the concept. It invalidate previous feature selection.

Online feature selection based on feature monitoring.
Online unsupervised feature selection.
unavailability of label information such as “verfication latency” of “initially labelled environments”.
Evaluating both linear and nonlinear relation among featrues flexiile to identify and remove redundant featreus.
monitoring of features as stream progresses.
active and passive learning approaches.
both fast and gradual

Auto-encoder
Aims to reconstruct the input in the out layer.
optimized by miniing the MSE of the output (reconstructed input)
a bottleneck layer is introduced to force the network to compress the freatures.

Learning auto-encoders for feature selection
Once the auto-encoder is optimized , feature reanking and sleection can be done by inspecting the wieghts in the first layer
feature with wieghts clase to zero indicates that it is not imporatnat in reconstructing itself and other features.

Auto-encoder in adynamic setting.

Feature drift occurs whenever a subset of features becomes, or ceases to be, relevant to the learning task; thus, learners must detect and adapt to these changes accordingly.

Once a feature drift occurs, the reconstruction error of a conergetd auto-encoder will increase significantly.
The reconstructio error of the network can be well uiilized for drift detection
The network will take some time to adapt to the new situation by

Ensemble-based solution.

Hybridized active and passive learning.

特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题，样本的特征数非常大（甚至），但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类，如果样本特征数超过了n，但假设函数的VC维确仍然是O(n)，那么，除非大大扩展训练集的数量，否则即会带来过拟合的问题。在这样的情况下，可以使用特征选择算法降低特征的数量。
为什么进行特征选择：
在现实生活中，一个对象往往具有很多属性（以下称为特征），这些特征大致可以被分成三种主要的类型：

相关特征：对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；
无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；
冗余特征：不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出；

但是对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题，尤其是在文本处理中。例如，可以把一篇文档表示成一个词向量，但是往往会使用所有的单词作为字典，因此对于一篇可能仅仅包含100或者200个单词的文档，可能需要上万的维度（也就是特征）。如果可以从中选择一部分相关特征构建模型，这个问题就可以得到一定程度的解决。所以，特征选择和降维有一定的相似之处。另外，从上面的例子中可以发现，如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性。

因此，进行特征选择的主要目的：

降维
降低学习任务的难度
提升模型的效率

定义：从N个特征中选择其中M（M<N）个子特征，并且在M个子特征中，准则函数可以达到最优解。特征选择想要做的是：选择尽可能少的子特征，模型的效果不会显著下降，并且结果的类别分布尽可能的接近真实的类别分别。

特征选择的过程：

对于一个有N个特征的对象，可以产生N^2个特征子集，特征选择就是从这些子集中选出对于特定任务最好的子集。特征选择主要包括四个过程：

生成过程：生成候选的特征子集；
评价函数：评价特征子集的好坏；
停止条件：决定什么时候该停止；
验证过程：特征子集是否有效；

生成过程其实是一个搜索过程，这个过程可以从以下几种情况开始：1.没有特征；2.所有特征；3.随机特征子集。在前两种情况下，每次迭代可以增加、删除特征；但是在最后一种情况下，每次迭代随机增加或者删除特征。评价函数用来评价生成过程中生成的特征子集，产生一个值用来比较当前特征子集和当前最优特征子集，如果这个特征子集更好，那么就取代当前最优子集。停止条件用来决定迭代过程什么时候停止，生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择：

达到预定义的最大迭代次数；
达到预定义的最大特征数；
增加（删除）任何特征不会产生更好的特征子集；
根据评价函数，产生最优特征子集；

验证过程并不是特征选择本身的一部分，但是选择出的特征必须是有效。因此，需要使用不同的测试集、学习方法验证选择出来的特征子集，然后比较这些验证结果。
生成过程：生成过程是一个搜索过程，这个过程主要有以下三个策略：

完全搜索：根据评价函数做完全搜索。完全搜索主要有两种：穷举搜索和非穷举搜索;
启发式搜索：根据一些启发式规则在每次迭代时，决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快，因为它的搜索空间是O(n^2);
随机搜索：每次迭代时会设置一些参数，参数的选择会影响特征选择的效果。由于会设置一些参数（例如最大迭代次数），所以搜索空间也远远小于O(2^n);
评价函数：评价函数主要用来评价选出的特征子集的好坏，一个特征子集是最优的往往指相对于特定的评价函数来说的。评价函数主要用来度量一个特征（或者特征子集）可以区分不同类别的能力。根据具体的评价方法主要有三类：

过滤式（filter): 先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。相当于先对于特征进行过滤操作，然后用特征子集来训练分类器。
包裹式（wrapper）：直接把最后要使用的分类器作为特征选择的评价函数，对于特定的分类器选择最优的特征子集。
Filter和Wrapper组合式算法：先使用Filter进行特征选择，去掉不相关的特征，降低特征维度；然后利用Wrapper进行特征选择。
嵌入式（embedding）：把特征选择的过程与分类器学习的过程融合一起，在学习的过程中进行特征选择。最常见的使用L1正则化进行特征选择。

一般有5种比较常见的评价函数：

距离度量：如果 X 在不同类别中能产生比 Y 大的差异，那么就说明 X 要好于 Y;
信息度量：主要是计算一个特征的信息增益（度量先验不确定性和期望后验不确定性之间的差异）；
依赖度量：主要用来度量从一个变量的值预测另一个变量值的能力。最常见的是相关系数：用来发现一个特征和一个类别的相关性。如果 X 和类别的相关性高于 Y与类别的相关性，那么X优于Y。对相关系数做一点改变，用来计算两个特征之间的依赖性，值代表着两个特征之间的冗余度。
一致性度量：对于两个样本，如果它们的类别不同，但是特征值是相同的，那么它们是不一致的；否则是一致的。找到与全集具有同样区分能力的最小子集。严重依赖于特定的训练集和最小特征偏见（Min-Feature bias）的用法；找到满足可接受的不一致率（用户指定的参数）的最小规模的特征子集。
误分类率度量：主要用于Wrapper式的评价方法中。使用特定的分类器，利用选择的特征子集来预测测试集的类别，用分类器的准确率来作为指标。这种方法准确率很高，但是计算开销较大。

References:

A survey on featuer drift adaptation : definition, benchmark, challenges and future directions, Journal of Systems nad Software, Vol. 127, 2017.
Barddal J P , Gomes H M , Enembreck, Fabrício, et al. A survey on feature drift adaptation: Definition, benchmark, challenges and future directions[J]. Journal of Systems and Software, 2016:S0164121216301030.
https://blog.csdn.net/hren_ron/article/details/80914491

Other Invited session on Deep Learning and AI Applications:

Tensor-based Subspace Learning for classification of Focal Liver Lesions in multi-phase CT Images.
随手搜了一些基础知识。
张量的定义：我们的目的是要用数学量来表示物理量，可是标量加上向量，都不足以表达所有的物理量，所以就需要扩大数学量的概念，张量就出现了。几何代数中定义的张量是基于向量和矩阵的推广，通俗一点理解的话，我们可以将标量视为零阶张量，矢量视为一阶张量，那么矩阵就是二阶张量。

张量的严格定义是利用线性映射来描述的。与矢量相类似，定义由若干坐标系改变时满足一定坐标转化关系的有序数组成的集合为张量。从几何角度讲，它是一个真正的几何量，也就是说，它是一个不随参照系的坐标变换（其实就是基向量变化）而变化的东西。最后结果就是基向量与对应基向量上的分量的组合（也就是张量）保持不变，比如一阶张量（向量） $a$ 可表示为 $a = x*i + y*j$ 。由于基向量可以有丰富的组合，张量可以表示非常丰富的物理量。

换一种定义方式，一个 $(p,q)$ 型张量，就是一个映射：

其中V是矢量空间，V^*是对应的对偶空间。如果一个物理量，在物体的某个位置上只是一个单值，那么就是普通的标量，比如密度。如果它在同一个位置、从不同的方向上看，有不同的值，而且这个数恰好可以用矩阵乘观察方向来算出来，就是张量。
张量的理解：张量是有大小和多个方向的量。这里的方向就是指张量的阶数。
空间维度n：一般我们使用3维空间，也可以是4维及以上维度。
张量阶数m：在固定的3维度空间再谈张量的阶数，阶数小于等于维数，即 m <= n m<=n 。
下面区分这个量：张量的阶数（张量的方向数）和所在空间的维数（所在空间的方向数）的区别
在二维空间里，二维二阶张量（平面应力张量）的每个方向都可以用二维空间两个方向表示。（区分2阶张量的2个方向，和二维空间的两个方向x, y）所以共有 2 2 = 4 2^2=4 个方向。
在三维空间里，三维二阶张量（空间应力张量）的每个方向都可以用三维空间三个方向表示。（区分2阶张量的2个方向，和三维空间的三个方向x, y, z）所以共有 3 2 = 9 3^2=9 个方向。
_________________________________________
20日下午，北师大的一篇很精彩的报告：
A novel time series forecating method baed on fuzzy visibility graph.

- Common time series forecasting models：

Autoregressive moving average model (ARMA)
Autoregressive integral moving average model (ARIMA)
Artificial neural network-based model [1]
Fuzzy time series forecasting model [2]

Recently, a visibility graph forecasting model [3] is proposed. It firstly constructs a visibility graph, then uses link prediction for the forecasting of time series.
然而，Visibility Graph 可能存在信息缺失、噪声点敏感、无法利用传递性等问题，作者提出了 Fuzzy Visibility 和 Fuzzy Visibility Graph的概念。
相比于之前的定义，Fuzzy Visibility Grpah只需要满足两个预测值之间存在一个中间值即可。
作者改进了之前只能针对点进行相似性预测的方法，扩展成可以针对一段序列的相似性计算。
使用了三种评价指标：

Mean absolute percentage error, i.e., MAPE
Mean absolute difference, i.e., MAD
Root mean square error, i.e., RMSE

分别使用了三组数据集：

Alabama Enrollment in The United States with 22data
Stock Price Index of the Taiwan Stock Exchange with 344 data
Shanghai Pudong Development Bank's Closing Price with 700 data

均验证了算法的优越性。

References:

Lou W, Nakai, Shuyro. Artificial Neural Network-Based Predictive Model for Bacterial Growth in a Simulated Medium of Modified-Atmosphere-Packed Cooked Meat Products[J]. Journal of Agricultural & Food Chemistry, 2001, 49(4):1799.
Egrioglu E, Cagdas Hakan Aladag, Ufuk Yolcu, et al. A new hybrid approach based on SARIMA and partial high order bivariate fuzzy time series forecasting model[J]. Expert Systems with Applications, 2009, 36(4):7424-7434.
Zhang R, Ashuri, Baabak, Deng, Yong. A novel method for forecasting time series based on fuzzy logic and visibility graph[J]. Advances in Data Analysis & Classification, 2017, 11(4):759-783.

________________________________________
Fuzzy partition based period detection method for numerical time series.

参考资料：

最近更新： 2019年7月26日 21:57:47

浏览： 2.7K

您的评论 *

[[total]] 条评论

添加评论

[[item.time]]

[[item.user.username]] [[item.floor]]楼

[[cc.time]]

[[cc.user.username]] #[[cc.room]]

- «
- 1
- ...
- [[i]]
- ...
- »

点击加载更多……
添加评论
登录后即可回复

添加评论登录后即可回复

hxy

302

4.8K

Note of ICNC-FSKD & ICHSA 2019

特征选择的过程：

[[total]] 条评论