
网络爬虫可以“爬”到对应的网页上,再把需要的信息“铲”下来。
(1)结构化数据。
(2)非结构化数据。
①正则。正则是指用事先定义好的一些特定字符以及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。
②bs4。面对大量复杂的标签,Python在爬虫领域拥有BeautifulSoup,可以通过定位 HTML 标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现 XML 结构信息。
爬取动态页面目前来说有两种方法:分析请求页面或者通过Selenium模拟浏览器获取。
有时,存储在文件和数据库中的数据的格式不能直接作为Python程序的输入。
此时,我们需要查看数据的构成,查看数据包含两个部分:一是查看元数据,包括字段解释、数据来源等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。
(1)缺失值清洗。
(2)格式和内容清洗。
①时间、日期、数值、全半角等显示格式不一致。
②内容中有不该存在的字符。
③内容与该字段应有内容不符。
(3)逻辑错误清洗。
①去重。
②去除不合理值,即噪声。
③修正矛盾内容。
(4)非需求数据清洗。
(5)关联性验证。
(1)模式匹配。
(2)数据冗余。
(3)数据值冲突。
(1)特征二值化。
(2)特征归一化。
(3)连续特征变换。
(4)定性特征哑编码:one-hot编码,又称为独热编码,即一位代表一种状态。
数据集成与数据清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模,这就是数据规约。