大数据教学项目案例
涵盖运营商、农业、电商、舆情、体育、交通、航空、银行、互联网等行业
大数据行业应用—运营商服务平台
项目描述:随着通信行业的普及以及人们对网络的需求越来越大,因此运营商的在线服务需求剧增。对于客户体验来说,电子渠道提供了一个足不出户办理业务的便捷方式,对于运营商来说,电子渠道低成本分流了实体渠道的业务压力中释放出来。
项目解决方案:本系统架构采用模块化设计,分为数据预处理、数据存储模块、数据处理模块、数据ETL模块、结果展现模块。可多维度统计数据、投诉风险预测、区域服务效能监控、实时展现故障区域位置及故障信息等。
大数据行业应用—农业大数据分析
项目描述:为了不断推进农业经济的优化,实现可持续的产业发展和区域产业结构优化,进一步推动智慧农业的建设进程,需要全面及时掌握农业的发展动态,这需要依托农业大数据及相关大数据分析处理技术,建设一个农业大数据分析应用平台来支撑。
项目解决方案:本系统架构采用模块化设计,分为数据爬取模块、数据存储模块、数据预处理模块、数据计算模块、数据可视化展现模块。可实现区域行情、品种对比、价格预测、价格走势等功能。
项目案例及指导手册
项目源代码及代码注释
项目案例数据
系统安装部署文档
大数据行业应用—情感分析
项目描述:互联网时代舆论观点都散布在各种社交网络平台或新闻提要中。对于这种网上海量分布的数据,可以挖掘各种重要信息,可以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中海量数据的挖掘分析显得尤为重要。
项目解决方案:本系统架构分为数据准备模块、文本转换向量模块、数据分词模块、可视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中抽取有用信息,结合文本分析算法处理文本内容,使用机器学习相关算法从训练数据集中训练出随机森林模型,再使用模型针对测试数据集进行预测分析,结合可视化组件直观展示民意分布,即时了解舆情导向。
大数据行业应用—生态环境数据分析
项目名称:生态环境数据分析
通过对环境数据的分析,监测出环境相关数据的变化、趋势,最终直观的将各分析结果也直观的方式展现出来。
配备《实验手册》《系统安装部署文档》项目源代码及代码注释
大数据行业应用—交通轨迹
项目描述:随着各种打车软件的发展,人们足不出户就可以约车,本案例主要是来探究生活中存在的打车难的问题,这个问题限制了我们有些时间的出行,浪费了我们的时间。在哪些地方容易打车,什么时候的车更容易搭乘,这是我们要着手解决的问题。
项目解决方案:本系统采用模块化设计,分为数据准备, 解析csv数据, 构建特征向量,聚类模型训练,聚类模型测试, 分析预测结果,数据可视化。通过spark和机器学习算法等相关技能,对打车的现状进行分析,并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。
大数据行业应用—银行贷款风险评估
项目名称:银行贷款风险评估案例
使用MLlib分析用户数据对用户做风险等级评估,给业务人员提供决策支持。
约15G数据、配备《实验手册》《系统安装部署文档》及项目源代码及代码注释
大数据行业应用—搜索引擎构建
项目描述:互联网时代舆论观点都散布在各种社交网络平台或新闻提要中。对于这种网上海量分布的数据,可以挖掘各种重要信息,可以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中海量数据的挖掘分析显得尤为重要。
项目解决方案:本系统架构分为数据准备模块、文本转换向量模块、数据分词模块、可视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中抽取有用信息,结合文本分析算法处理文本内容,使用机器学习相关算法从训练数据集中训练出随机森林模型,再使用模型针对测试数据集进行预测分析,结合可视化组件直观展示民意分布,即时了解舆情导向。
大数据行业应用—线上竞拍
项目描述:Ebay在国外很受欢迎,网民可以拍卖的形式出售和竞价商品,但是并不是所有拍卖都可以成功,因此我们利用ebay的历史数据使用机器学习方法训练模型并预测一项拍卖是否会成功,并预测成功交易的最终价格
项目解决方案:本系统架构采用模块化设计,分为数据准备、数据存储模块、数据分析模块、模型训练模块、模型预测模块。通过历史数据利用机器学习算法训练模型,找出商品所有特征项与拍卖成功与否的正负相关性,预测拍卖能否成功,并预测价格的准确度。
大数据行业应用—NBA赛事预测
项目描述:目前可以通过球队的排名对比赛的结果进行赛前估计,但是这种猜测一般觉有不确定性。所以利用机器学习算法对球队的以往表现,以及对手的表现综合各方面的因素做一个统计,从中学习出某种规律,这样我们就可以得到可靠性比较高的预测结果。
项目解决方案:本系统架构采用模块化设计,分为数据获取模块、特征选择模块、数据分析模块、模型训练模块、模型预测模块,程序运行模块等。通过从已有数据中抽取有用的信息并通过相应算法,将球队重新划分等级,利用机器学习算法,从中学习出特有的规律预测比赛结果。
大数据行业应用—航班线路
项目描述:飞机航班常因为天气或机场原因,导致航班的延误甚至取消,该项目基于一批航班的历史数据对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等;最后利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。
项目解决方案:本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供spark sql中的元数据访问支持;spark core作为spark sql的核心支持。使用spark sql分析航空数据的一些指标。