2018年6月20日下午1:30,我院信息分院邀请美国新墨西哥州立大学终身教授王通会在学术中心第一报告厅举办了关于主题为《Statistical and machine learning data mining -Techniques for better predictive modeling and analysis of big data》的讲座,东方学院王跃梅院长、信息分院部分老师及学生、以及其他分院的部分老师参加了此次讲座。
我院王跃梅院长做陈述发言,对王教授的到来表示热烈的欢迎,并对王教授的简历作了简要介绍。王通会 (Tonghui Wang)教授,于1982年在西北大学数学系获得数学学士学位,分别于1988年和1992年在加拿大温莎大学获取统计学专业硕士及博士学位,现为美国新墨西哥州立大学终身教授。在国际多家著名期刊发表学术论文80多篇,出版研究生教科书两本。目前的研究方向包括:多元分析,偏正态族分布及应用,Copula及相关性度量,多元线性混合模型,随机集及其应用,推断模型(Inferential Model),随机优势及贫穷度量的统计推断及应用等。
随后王教授开始了本次精彩的讲座,这次讲座主要介绍了几种基本的数据挖掘方法,以及基于CHAID的大数据统计分析,并通过具体的数据实例来阐述这些方法。具体内容包括:1、统计分析的一般步骤;2、探索性数据分析(EDA)介绍;3、两种基本的数据挖掘方法介绍,平滑散点图法(The smoothed scatterplot)和非参数关联性检验(Association nonparametric test);4、基于CHAID的大数据分析方法。
王教授认为,一个严谨的统计过程需要七步循环法中每一步骤的具体表现,其中这七步主要包括以下几点:(1)问题的定义:解决问题的最好方法并不容易找到(2)确定方法:选择的方法一般是数据分析者乐于接受的方法,而不必是解决问题的最好方法。(3)可替代方法的使用:使用可替代方法使得进行全面分析成为可能(4)功效的粗略比较:比较结果的多变性,可以产生许多新的方法(5)指标的对比(6)指标的最优化(7)几种最优化指标的对比
探索性数据分析(EDA)是一种用于概括和可视化数据集的重要特征的数据分析方法,EDA侧重于对数据进行探讨,理解数据的底层结构和变量,对数据集形成直观认识,考虑该数据集是如何产生的,并决定如何使用更多的形式统计方法对它进行进一步的调查。EDA包括以下特征:弹性、操作性、创新性、实用性、简明性等特性。王教授讲解了传统范式和EDA范式,并用图表形象地说明了这两者之间的区别和联系。
王教授指出,今天的数据挖掘可以分为三类:强调EDA的统计学、大数据、机器学习。其中机器学习(Machine Learning,ML)开始于二十世纪八十年代,机器学习的研究者一般熟悉统计学家面临的三个问题:回归、分类和聚类,除此之外,还有很多其他数据挖掘方法比如神经网络、支持向量机、模糊逻辑、遗传算法、知识获取、文本分析、专家系统等。王教授重点介绍了两种基本的数据挖掘方法:平滑散点图法(The smoothed scatterplot)和非参数关联性检验(Association nonparametric test),并对关联系数进行详细介绍。
王教授还介绍了基于CHAID的双变量数据挖掘方法,这是一种结合CHAID和平滑散点图的分析方法,这种新的方法可以更真实地描述双变量之间的关系。以及主成分分析法(CPA):一种多变量评估的统计数据挖掘方法,这种方法在引用多变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。
最后王教授给予关于数据挖掘方法的几点建议:数据挖掘营销模型的可视化以有效揭露一个模型的内部结构;可预测的贡献系数;测量预测的重要性;以及异常值的处理。
王教授的讲座深入浅出,条理清晰,结合具体实例,给大家展示了大数据挖掘分析的魅力。