入口模块¶

class moear_spider_zhihudaily.entry.ZhihuDaily(*args, **kwargs)[源代码]¶

基类：moear_api_common.base.SpiderBase

知乎日报爬虫插件

初始化默认配置参数，可在子类中进行覆盖

配置优先级为：用户元数据 > 具体Package配置 > Common全局默认配置

参数:	usermeta (dict) – （可选，关键字参数）指定用户的package相关配置元数据，如：定制书籍名(book_title)等

hook_custom_options()[源代码]¶

该方法返回当前类的自定义配置项，由基类在 __init__ 方法中调用，调用点位于，Common默认全局配置完成后，用户元数据配置前

返回:	返回当前类的自定义配置项
返回类型:	dict

register(*args, **kwargs)[源代码]¶

调用方可根据主键字段进行爬虫的创建或更新操作

返回:	返回符合接口定义的字典数据
返回类型:	dict

crawl(*args, **kwargs)[源代码]¶

执行爬取操作，并阻塞直到爬取完成，返回结果数据。此处考虑到 Scrapy 本身的并发特性，故通过临时文件方式做数据传递，将临时路径传递到爬虫业务中，并在爬取结束后对文件进行读取、 JSON 反序列化，返回

返回:	返回符合接口定义的字典对象
返回类型:	dict

format(data, *args, **kwargs)[源代码]¶

将传入的Post列表数据进行格式化处理。此处传入的 data 格式即为 ZhihuDaily.crawl() 返回的格式，但具体内容可以不同，即此处保留了灵活度，可以对非当日文章对象进行格式化，制作相关主题的合集书籍