博客 - NEUSNCP

记录一次微博数据的处理

2019-07-26 11:27 hxy

场景：现有Mysql数据库中爬取的微博数据集，如： https://www.neusncp.com/user/blog?id=91 已转存为csv格式，想存储为gml格式使用Gephi进行可视化。（受服务器资源限制，NEUSNCP的DATALAB还不足以可视化这么大的数据集）话不多说，直接上代码： import networkx as nx import csv def progress(percent, width=50): '''进度打印功能''' percent = 100 if percent...

继续阅读 »

分享到：

Gaussian Mixture Model and EM method.

2019-07-18 14:09 alpha

徐老师讲课最后一节。首先是 WEKA安装libsvm及使用演示。言归正传，Generative Models，生成模型。 A model of the data fenerating process gives rese to data. Model estimation from data is most commonly through Likelihood estimation. Find the bestmodel which has generated the data. In a lik...

继续阅读 »

分享到：

随手记：Python读取文件使用with open as 是否需要close?

2019-06-15 00:05 hxy

在使用Python读取文件预处理时，常常会遇到这样的语句： with open(target_path, 'r') as f: for row in csv.reader(open(source_path, 'r')): # print(row[0], row[1]) # ...... f.close() 还有一种写法： G = nx.Graph() datafile = open(filepath) lines = datafile.readlines(line) length = len(lines)...

继续阅读 »

分享到：

利用LFR Benchmark 生成带标签的网络数据集

2019-06-12 09:47 hxy

现实世界中，获取大规模带标签的网络数据集比较困难。当然，不排除斯坦福的SNAP [1] ，Newman大牛的个人主页 [2] 等给出了很多有价值的数据集。但是，如果想要构建符合自己需求的带有 ground truth的数据集就比较困难了。复杂网络领域的另一位大牛，Santo Fortunato [3] ，给出了一个Linux版本的程序，可以根据参数配置生成比较理想的数据集。下载地址： LFR Benchmark 使用方法：命令： .\benchmark.exe -N 1000 -k 15 -maxk ...

继续阅读 »

分享到：

开篇随口说说

2019-01-01 22:31 VincentWei

15年毕业伊始到16年，大数据还是如火如荼，Hadoop生态圈百花齐放，基于HDFS的分布式文件系统之上，以批处理见长的MapReduce和兼顾流处理（微批处理）和批处理的内存计算Spark等引擎引擎为支撑，构建大数据应用成常态。在采集端，flume，logstash，Fluentd主要对日志数据进行监控采集，衍生出ELK的各种架构形态，还有传统的kettle，DI工具，虽说效率极差，但是基于作业项和转换项的可插拔式设计，在关系型数据库中曾经占领一席之地，sqoop1/2全量或增量HIVE，HDFS和No...

继续阅读 »

分享到：

NEUSNCP

643

Error

记录一次微博数据的处理

Gaussian Mixture Model and EM method.

随手记：Python读取文件使用with open as 是否需要close?

利用LFR Benchmark 生成带标签的网络数据集

开篇随口说说