15年毕业伊始到16年,大数据还是如火如荼,Hadoop生态圈百花齐放,基于HDFS的分布式文件系统之上,以批处理见长的MapReduce和兼顾流处理(微批处理)和批处理的内存计算Spark等引擎引擎为支撑,构建大数据应用成常态。在采集端,flume,logstash,Fluentd主要对日志数据进行监控采集,衍生出ELK的各种架构形态,还有传统的kettle,DI工具,虽说效率极差,但是基于作业项和转换项的可插拔式设计,在关系型数据库中曾经占领一席之地,sqoop1/2全量或增量HIVE,HDFS和NoSQL数据库中导入导出广受大家欢迎。基于性能的考虑,一些公司采用SparkSQL和StructuredStreaming设计实现了ETL工具,也不错。在数据存储层,分布式的内存存储Techyon,数据网格Ingite也一度红火。各大厂商也相继效仿自研分布式文件存储方案。对于NoSQL,不得不谈HBase和Mongo了,HBase主要应对高维稀疏数据,但最好列族不要太多,影响查询性能,而MongoDB并不适合大数据量,数据一上来就卡。计算引擎不得不谈Spark内存计算,至今经历了1.6.X到2.X的变革,经历了钨丝计划,shuffle优化,structured streaming,DataSet等,生态不断完善,其Spark SQL成数据仓库方案的不二之选。提到数据仓库,不得不提Kylin,空间换时间预先计算的想法,正式计算思维的体现,后期改为Spark计算引进和流处理方式,加速了计算,但是由于其本身的问题不断,已经愈来愈少人使用了。而类似的SQL on Hadoop的产品还有Impala,Phenoix,Presto等等,对于多维分析的可视化,Saiku和Tablue各有千秋。数据挖掘方案,当时还是使用类似KNIME,Mahout和Spark MLlib这类的传统机器学习工具。图计算方面,有具备查询能力的Neo4J,还有Taitan。而调度方面,有Azkanba,Oozie和比较好的Airflow。至于数据可视化,基本上那是还是类似EChart,D3的画图工具。这个时候,其实机器学习已经很受重视了。消息中间件方面,Kafka一枝独秀,但是现今也暴露出很多不足,有人重新造了轮子,PURSAR.IO。流处理计算,从Storm->JStorm->Spark Streaming->Flink->Google DataFlows,存在着一系列重量的框架,有的基于反馈应答,有的基于微批处理,有的基于分布式快照,有的基于事务跟新,在吞吐量上各有差别,而类似SQL on Storm的技术和复杂处理的技术在实际的工业界中也应用颇多。17年,机器学习大行其道,由于数据量和GPU能力的提升,深度学习进入工业界,CNN,RNN,GoogleNet,AlexNet等等,在图像分类,语音识别,自然语言处理领域战功显赫,云端本地化,万物智能化,跨界融合不断升级。而分布式机器学习也成为了必要,基于Parameter Server的模型实现工业化,比如腾讯开源的Angle,有些分布式机器学习框架比如TensorFlow on Spark类似的,比如360开源的一款,其实是扩展仿照Yarn的容器资源分配方式的。而这时,TensorFlow脱颖而出,成为了工业界事实的标准,还有PyTorch,Caffe2,PaddlePaddle等,我个人认为PaddlePaddle是最适合中国国情的,TensorFlow面向的是云化的模式。而大数据可视化例如TensorBoard等为代表的神经网络可视化也出现了。18年,区块链爆红,创业潮一波波来袭,经历了虚拟货币的第一代,以以太坊为代表的第二代和万物生态的第三代区块链技术,可以认为区块链是社会治理的全新模式,大有可为。而在这年,网络界也有一个新潮,智能网络,基于意图驱动的网络系统,不经意研究了意图验证的相关技术,似乎偏离我的技术路线,但是收获也颇多,只是在网络知识方面积累了很多了。另外,早在2017年开始关注K8s项目,2018年也真正掌握了这个即将改变云计算的核心技术。
回顾2018:
1. 机器学习继续成为大数据智能分析的核心技术
2. 人工智能和脑科学相结合,成为大数据分析领域的热点
3. 数据科学带动多学科融合
4. 数据学科虽兴起,但学科突破进展缓慢
5. 推动数据立法,重视个人数据隐私
6. 大数据预测和决策支持仍然是应用的主要形式
7. 数据的语义化和知识化是数据价值的基础问题
8. 基于海量知识的智能是主流智能模式
9. 大数据的安全持续令人担忧
10. 基于知识图谱的大数据应用成为热门应用场景