08dd24c2-14b3-417d-87b5-d3f0a7e81bc9: 10.3 文本讲解

10.3.1 Python中的数据采集

网络爬虫可以“爬”到对应的网页上，再把需要的信息“铲”下来。

1.爬虫中数据的分类

（1）结构化数据。

（2）非结构化数据。

①正则。正则是指用事先定义好的一些特定字符以及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。

②bs4。面对大量复杂的标签，Python在爬虫领域拥有BeautifulSoup，可以通过定位 HTML 标签来格式化和组织复杂的网络信息，用简单易用的Python对象为我们展现 XML 结构信息。

2.动态爬虫

爬取动态页面目前来说有两种方法：分析请求页面或者通过Selenium模拟浏览器获取。

10.3.2数据加载

有时，存储在文件和数据库中的数据的格式不能直接作为Python程序的输入。

此时，我们需要查看数据的构成，查看数据包含两个部分：一是查看元数据，包括字段解释、数据来源等一切描述数据的信息；二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理做准备。

10.3.3数据预处理

1.数据清洗

（1）缺失值清洗。

（2）格式和内容清洗。

①时间、日期、数值、全半角等显示格式不一致。

②内容中有不该存在的字符。

③内容与该字段应有内容不符。

（3）逻辑错误清洗。

①去重。

②去除不合理值，即噪声。

③修正矛盾内容。

（4）非需求数据清洗。

（5）关联性验证。

2.数据集成

（1）模式匹配。

（2）数据冗余。

（3）数据值冲突。

3.数据变换

（1）特征二值化。

（2）特征归一化。

（3）连续特征变换。

（4）定性特征哑编码：one-hot编码，又称为独热编码，即一位代表一种状态。

4.数据归约

数据集成与数据清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模，这就是数据规约。

最后修改: 2020年02月4日 Tuesday 17:29