数据采集与预处理

2026年春江苏开放大学数据采集与预处理060749第二次形考作业

使用Scrapy爬虫框架爬取网页 一、实验目的1. 理解Scrapy爬虫框架的架构和工作流程;2. 掌握使用Scrapy爬虫框架进行爬虫项目开发。 二、实验内容创建一个Scrapy项目SunHot,用于爬取阳光热线问政平台的部分信息,主要包括投诉帖子的编号、帖子的URL、帖子的标题及帖子的内容,其网址为:https://wz.sun0769.com/politi

2026年春江苏开放大学数据采集与预处理060749形成性综合大作业

本次综合大作业是完成青少年社交网络信息数据预处理。 一、实验目的1. 掌握数据清洗的典型流程和方法。2. 掌握数据缺失值和异常值的处理方法。3. 掌握特征编码和特征标准化的特征处理方法。 二、实验内容和要求(详见附件)随着社交网络平台的流行,越来越多的青少年用户会在这些平台发布消息。请使用Pandas包和sklearn的预处理模块中的一些类,对社交网络信息数据集进行预处理。

2026年春江苏开放大学数据采集与预处理060749第一次形考作业

爬取证券之星数据 一、实验目的掌握使用urllib库访问目标网址,BeautifulSoup库解析网页,获得网页静态加载的数据信息的方法。二、实验内容创建一个爬虫项目StockStar,用于爬取证券之星的部分信息,主要包括代码、简称、流通市值(万元)、总市值(万元)、流通股本(万元)、总股本(万元),其网址为:http://quote.stockstar.com

2026年春江苏开放大学数据采集与预处理060749第三次形考作业

试题列表单选题题型:单选题客观题分值3分难度:一般得分:31下列选项表述错误的是( )A检测异常值的⽅法可以基于统计、距离、密度、模型等B数据的初步处理是对数据进⾏整合、分组等操作C数据清洗包括缺失值处理、异常值处理、数据转换等⼏个⽅⾯D缺失值最好的处理⽅式是直接删除学生答案:D老师点评:题型:单选题客观题分值3分难度:一般得分:32下列说法中,关于清洗重复值的说法正确的是( )A清洗重复值的基本