ASCII 、UTF-8、Unicode都是个啥啊,为啥会乱码啊?

https://m.toutiao.com/i6508698036997194253/

 

ASCII 、UTF-8、Unicode都是个啥啊,为啥会乱码啊?

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bi[……]

继续阅读

分分钟教你学会正则表达式

https://mp.weixin.qq.com/s/UxhBwnLPwEa5Upwagsc_aA

 

前言介绍正则表达式的实现及其应用场景。

Looog博客地址:

http://www.jianshu.com/p/060f15352867

正文

基础

  • \[……]

继续阅读

正则表达式匹配Html标签

https://www.cnblogs.com/anduinlothar/archive/2012/08/29/2662917.html

 

查找所有的TD区域(最短):
<td\s*.*>\s*.*<\/td>

查找所有的TR:
<tr[……]

继续阅读

Scrapy 入门学习笔记(3) — 使用 Item 类转换传输数据以及ItemLoader 机制解析

http://blog.csdn.net/Ahri_J/article/details/72466231

 

最近学习用 Scrapy 框架写爬虫,简单来说爬虫就是从网上抓取网页,解析网页,然后进行数据的存储与分析,将从网页的解析到数据的转换存储。将学习过程中用到的解析技术,S[……]

继续阅读

使用Scrapyd部署爬虫

https://www.jianshu.com/p/f0077adb74bb

 

为什么要用Scrapyd?
Scrapyd是scrapinghub官方提供的爬虫管理、部署、监控的方案之一,另一个是Scrapy Cloud。
官方对它的定义是
Scrapy Doc[……]

继续阅读

python定时任务库

schedule: https://schedule.readthedocs.io/en/stable/

apscheduler: http://apscheduler.readthedocs.io/en/3.0/

 

schedule很好用

def crawl_wor[......]

继续阅读

在scrapy的spiders文件中设置请求时间间隔

https://www.cnblogs.com/jiafujun/p/7660724.html

 

设置某个spider单独使用的设置项等等。

在spiders文件中写如下:

  custom_settings = { ‘DOWNLOAD_DELAY’: 0.2, [……]

继续阅读

Python爬虫项目整理

http://blog.csdn.net/u011781521/article/details/70179998

 

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字[……]

继续阅读

Python爬虫系列之—-Scrapy(七)使用IP代理池

http://blog.csdn.net/u011781521/article/details/70194744?locationNum=4&fps=1

 

一、手动更新IP池

1.在settings配置文件中新增IP池:

  1. IPPOOL=[……]

继续阅读

Scrapyd 部署

https://www.jianshu.com/p/93ccb59ce9b3

 

scrapy爬虫写好后,需要用命令行运行,如果能在网页上操作就比较方便。scrapyd部署就是为了解决这个问题,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大。[……]

继续阅读