
(1)Python的独特魅力——动态编程语言。
(2)Python是一种胶水语言。
(3)解决“两种语言”问题。
“大数据”是一个体量特别大,数据类别特别多的数据集,并且这样的数据集无法用传统的数据库工具对其内容进行抓取、管理和处理。
(1)采集。
(2)导入/预处理。
(3)统计/分析。
(4)挖掘。
对本次数据工程项目任务的主要目标进行细致分析,了解进行数据采集的目的以及需要进行的细化和分析。
在数据分析中,数据是根本。在数据收集过程中,数据源会影响大数据质量的真实性、完整性、一致性、准确性和安全性。
(1)统计调查。
(2)他人调查的数据。
①公开数据集。
②国内公开数据。
(3)网上爬取的数据。
大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等的影响,因此需首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性与价值性。
结构化数据,即可以用二维表结构来逻辑表达实现的数据,存储在数据库里。相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据,称为非结构化数据。
(1)数据处理。无论哪种大数据分布式处理与计算系统,都有利于提高大数据的价值性、可用性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统,而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。
(2)数据分析。数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。
数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。