免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

记录一次微博数据的处理

场景:现有Mysql数据库中爬取的微博数据集,如: https://www.neusncp.com/user/blog?id=91 已转存为csv格式,想存储为gml格式使用Gephi进行可视化。(受服务器资源限制,NEUSNCP的DATALAB还不足以可视化这么大的数据集 ) 话不多说,直接上代码: import networkx as nx import csv def progress(percent, width=50): '''进度打印功能''' percent = 100 if percent...

继续阅读 »
分享到:

利用LFR Benchmark 生成带标签的网络数据集

现实世界中,获取大规模带标签的网络数据集比较困难。当然,不排除斯坦福的SNAP [1] ,Newman大牛的个人主页 [2] 等给出了很多有价值的数据集。但是,如果想要构建符合自己需求的带有 ground truth的数据集就比较困难了。复杂网络领域的另一位大牛,Santo Fortunato [3] , 给出了一个Linux版本的程序,可以根据参数配置生成比较理想的数据集。下载地址: LFR Benchmark 使用方法: 命令: .\benchmark.exe -N 1000 -k 15 -maxk ...

继续阅读 »
分享到:

开篇随口说说

15年毕业伊始到16年,大数据还是如火如荼,Hadoop生态圈百花齐放,基于HDFS的分布式文件系统之上,以批处理见长的MapReduce和兼顾流处理(微批处理)和批处理的内存计算Spark等引擎引擎为支撑,构建大数据应用成常态。在采集端,flume,logstash,Fluentd主要对日志数据进行监控采集,衍生出ELK的各种架构形态,还有传统的kettle,DI工具,虽说效率极差,但是基于作业项和转换项的可插拔式设计,在关系型数据库中曾经占领一席之地,sqoop1/2全量或增量HIVE,HDFS和No...

继续阅读 »
分享到: