入口模块¶
-
class
moear_spider_zhihudaily.entry.
ZhihuDaily
(*args, **kwargs)[源代码]¶ 基类:
moear_api_common.base.SpiderBase
知乎日报爬虫插件
初始化默认配置参数,可在子类中进行覆盖
配置优先级为:
用户元数据
>具体Package配置
>Common全局默认配置
参数: usermeta (dict) – (可选,关键字参数)指定用户的package相关配置元数据, 如:定制书籍名(book_title)等 -
hook_custom_options
()[源代码]¶ 该方法返回当前类的自定义配置项,由基类在
__init__
方法中调用, 调用点位于,Common默认全局配置完成后,用户元数据配置前返回: 返回当前类的自定义配置项 返回类型: dict
-
crawl
(*args, **kwargs)[源代码]¶ 执行爬取操作,并阻塞直到爬取完成,返回结果数据。 此处考虑到 Scrapy 本身的并发特性,故通过临时文件方式做数据传递, 将临时路径传递到爬虫业务中,并在爬取结束后对文件进行读取、 JSON 反序列化,返回
返回: 返回符合接口定义的字典对象 返回类型: dict
-
format
(data, *args, **kwargs)[源代码]¶ 将传入的Post列表数据进行格式化处理。此处传入的
data
格式即为ZhihuDaily.crawl()
返回的格式,但具体内容可以不同,即此处保留了灵活度, 可以对非当日文章对象进行格式化,制作相关主题的合集书籍参数: data (list) – 待处理的文章列表 返回: 返回符合mobi打包需求的定制化数据结构 返回类型: dict
-