大数据实训平台

知识工作自动化平台|解放白领的云服务|东软平台云|企业管理软件|移动办公|云办公

教学与应用平台

大数据培训平台内置神经网络,决策树,聚类,线性回归,逻辑回归以及集成学习等多种机器学习算法,数据分析师培训平台,大数据实训平台,大数据演武场

版本 标准配置 高级配置
申请查看报价

功能实现

1、东软数据科学教学实训平台的使用权(Core、Notebook、Feature、Service)

2、数据科学教学实训平台案例库中任选5个案例的使用权

3、支持30个学生同时登录平台进行教学实训操作。

4、服务购买期间的持续服务,包括版本升级、远程技术支持(5x8)

1、东软数据科学教学实训平台的使用权(Core、Notebook、Feature、Service)

2、数据科学教学实训平台案例库中任选10个案例的使用权

3、支持30个学生同时登录平台进行教学实训操作。

4、服务购买期间的持续服务,包括版本升级、远程技术支持(5x8)

 

东软数据科学教学实训平台云版本功能清单

功能/组件

功能特性

功能说明

数据科学教学实训平台core

学习资料

提供机器学习算法PPT,机器学习实验视频,案例实训手册等教学实训内容

开放平台

提供开放开发接口,开发SDK底层包,以及帮助中心,开发文档,平台规则等支持二次开发和相关科研研究。

相关下载

提供支持二次开发和相关科研研究所需要使用的开发环境和开发工具。

职业规划

面向数据科学与大数据人才培养和未来的就业,平台引导学生了解未来就业的岗位及岗位职位要求。

机器学习算法库

大规模机器学习算法库:Generalized Linear Model、K-Means、Decision Tree、Naïve Bayes、Random Forest、Deep Learning

数据管理

上传数据(文本、关系型数据路、分布式文件系统、NoSQL数据库)、解析数据、切分数据、数据列表、数据特征详细、保存数据、加载数据、下载数据

模型管理

构建模型、模型列表、模型结果、保存模型、加载模型、POJO下载

预测评估

模型评估、评估列表、评估结果

超参搜索

利用Gridsearch法自动搜索最佳模型参数配置

数据科学教学实训平台NoteBook

脚本管理

新建/打开/保存/下载/导入/导出脚本

命令管理

命令的插入/上移/下移/剪切/拷贝/在该命令之下粘贴/清空命令结果/删除/运行其下所有/运行所选/运行所有

数据管理

提供基于NoteBook风格的参数配置、任务提交、数据结果查看

模型管理

提供基于NoteBook风格的构建模型参数配置、任务提交、模型结果查看

预测评估

提供基于NoteBook风格的预测评估参数配置、任务提交、预测结果查看

数据科学教学实训平台Feature

数据可视化

概率分布统计、关联性分析

聚合分析

聚合分析,支持Group By操作

空值统计

空值统计,支持控制判断过滤

数据合并

数据合并,支持Left Join,Right Join,Inner Join,Union操作等

列拆解

列拆解,支持按列抽取

数据标准化

数据标准化,支持最大最小方差统计

异常值处理

异常值处理,支持异常值检验

缺失值补全

缺失值补全,支持Case操作

数据科学教学实训平台Service

模型导入

支持Notebook构建的模型导入到预测服务管理平台

模型预测服务发布

支持模型通过Restful跨平台接口方式发布为预测服务

模型定时更新

支持通过Notebook脚本定时任务调度更新

预测服务管理

支持对预测服务列表查看、运行状态等管理功能

 

东软数据科学教学实训平台云版本案例库清单

功能/组件

功能特性

功能说明

数据科学教学实训
平台案例库

水产数据

大连某海产公司主营海产品为各类鲍鱼,现欲通过已有鲍鱼相关指标数据建立模型,通过模型来预测鲍鱼重量。我们首先通过概率分布分析和关联分析,并画出相应图形进行可视化展示。其次利用GLM算法和GBT算法建立模型,最后进行预测评估并用散点图可视化展示,便于解释分析结果。

贫困生识别

目前高校贫困生认定由各院系班级组成的认定评议小组民主评议学生的贫困生申请。认定评议小组根据学生提交的《高等学校家庭经济困难学生认定申请表》和《高等学校学生及家庭情况调查表》,结合学生日常消费行为进行评议,确定各档次的家庭经济困难学生资格,报各院系部认定工作组进行审核。这种贫困生资格认定工作,覆盖面不全,工作量大,人工干预过多,存在漏查和人情关系照顾的可能,造成资源的浪费和真正需要帮助的人无法获得补贴的可能,所以要利用科学的机器学习算法来进行贫困生评定。
真实贫困生现象反映到生活中,直观现象就是贫困生的消费能力低于全部学生的平均水平,只有日常基本的消费行为和消费能力,处于马斯洛需求层次理论的一二层次,很少有更高层次的消费需求。
我们通过校园一卡通消费记录,探索每个学生在校园内的生活消费行为特征,基于RFM理论创建多种衍生特征变量,扩大对学生消费行为的特征描述角度,弥补数据广度的不足。并采用无监督学习算法K-means,把学生消费记录划分为5种不同消费层次的群体。解读划分后的群体的消费特征,找出最有可能是贫困生的群体。

电影票房的预测

某电影公司为了能够准确的预测出某部即将上映的电影在各地的票房,分别在各地安排上映的场次,并在上座率低的票房安排宣讲演出来吸引大量观众观赏,来更大的获取利润,同时给观影者一个合理的推荐,现想通过历史电影票房的数据和上映的地点来进行数据建模,预测某部电影的票房数,并安排电影的场次等。我们首先通过概率分布分析,应画出相应的柱状图形进行可视化展示。然后利用GLM算法建立模型,最后进行预测评估并进行可视化分析,便于解释分析结果

银联欺诈预测

银联拥有者银行卡具有交易转账信息,其中包括正常的交易,同时也含有欺诈的交易。交易转账信息包括地理信息、交易信息以及其他信息,如何找寻这些信息和欺诈交易之间的关系,从而建立能够预测阻止欺诈交易的长效机制。根据现有的数据建立预测模型,预测欺诈交易,防止欺诈行为的发生。

电商个性化推荐

某信息网站根据用户的兴趣特点和浏览行为,向用户推荐感兴趣的贴吧和信息,这样可以使浏览者很快的了解到自己想要了解的内容,从而会增加用户的使用数量。我们根据客户提供的大量数据并使用协同过滤算法来分析用户的个人偏好,以此给用户推荐感兴趣的信息。

航空配餐预测

某航空公司为了能够准确的为乘客提供足够的餐饮而且还要达到的餐饮没有剩余,节省成本,造成不必要的浪费,现想通过历史航班和所提供的餐饮量来进行数据建模,预测下次航班的人数,并准备适当的餐饮。我们首先通过概率分布分析,应画出相应的柱状图形进行可视化展示。然后利用GLM算法建立模型,最后进行预测评估并进行可视化分析,便于解释分析结果。

风机预测性维护

风能作为一种清洁的可再生能源,越来越受到世界各国的重视。目前,风电行业已经成为最具发展潜力且技术成熟的新能源行业。在风机运行过程中,掌握其工作状态可提前对风机进行预测性维护,对减少损失和降低故障发生率具有很重要的意义。本实验的目的旨在识别风机的工作状态,明析风机的运行状态,以便为风机维护和管理提供决策支持。

算法SDK开发

学生在掌握相关算法使用场景的同时,也需要掌握某些经典算法的由来,原理以及相应的实现方式。我们提供相关的算法SDK开发包、相关的开发IDE和相关支持工具,要求学生自己实现相关算法的代码实现。

数据科学教学实训平台案例库

客户流失预测

一般而言, 从一位老客户中得到的收益要大于一位新用户。同时,吸引一位新用户的成本要比挽留一位即将流失的老客户多得多, 因此建立流失预测模型具有重要的意义。通过数据挖掘和机器学习方法,建立流失率预测模型,筛选有价值的客户进行流失预测,得到客户的流失概率或流失分类,从而帮助营销运营人员筛选和挽留将要流失的客户,保护优质客户。

就业局就失业大数据分析

本实验利用湖北就失业相关数据信息,从三个层面对就失业及补贴的效果进行分析,第一个层面通过传统的统计分析与趋势分析方法从多个维度去探索就失业数据的分布特点及变化趋势,第二个层面利用大数据及人工智能的关联分析及机器学习算法,基于就失业登记信息,构建就失业分类预测模型,通过模型从宏观和微观两个角度挖掘出哪些因素促进了就业,哪些因素造成了失业。