全站搜索未启用
跳到主要内容

10.4.1简介

泰坦尼克号的沉没是历史上重大的沉船事故之一。1912年4月15日,泰坦尼克号在处女航期间与冰山相撞沉没,造成1500多人死亡。这一耸人听闻的悲剧震惊了国际社会,并促进了相关部门对船只的更好的安全管理。

10.4.2项目目标

参赛者被给定泰坦尼克之灾中乘客的若干属性,要求根据这些属性预测相应乘客最终生存与否。

10.4.3数据获取和审查
(1)数据获取

因为是Kaggle官方的数据科学比赛,相关数据由比赛举办方给出。

(2)数据总览

在获取数据后,我们还需要做两件事:

一是划分数据集,一般需要将全部数据划分为训练集、验证集和测试集。二是进行整体浏览观察数据,分析数据特点,观察哪些数据具有缺失值并思考如何处理含有缺失值的数据。

(3)数据初步分析

每一位从事数据行业的工作者,在将数据输入机器学习模型之前,必要做的一件事就是构建特征工程。数据特征工程构建的完善程度对结果起着决定性影响。传统机器学习模型十分依赖好的有效的特征;而新兴的深度学习领域则通过自学习特征工程,取代了手工制作的过程。

10.4.4泰坦尼克之灾:数据处理

进行完初步数据分析后,我们要开始做属性工程,对不同字段的数据进行处理。前面的数据分析只是观察训练集来获取比较直观感性的认识;而本阶段的数据处理,需要将训练数据和测试数据一起处理,遵循数据的整体统计规律,是合理的处理方法。

包含缺失值的属性为:Age、Cabin、Embarked、Fare。针对数据缺失的不同程度,将使用不同的缺失值处理方法。

10.4.5泰坦尼克之灾:机器学习模型训练

训练过程中,一共训练了3个模型:随机森林模型、ExtraTree和梯度提升树模型。最终使用投票机制,完成了对生存结果的预测。投票机制是模型融合的一种方式,投票权重是手动设置的。此类权值和森林模型的诸多参数[如学习率、迭代次数、森林中的叶数(决策树的分叉程度)等均为超参数,需要手动尝试尽可能多的可能,取最优结果。

最后修改: 2020年02月4日 Tuesday 17:32