正则匹配

匹配任意html标签:<([a-zA-Z]+)[^>]*>[\s\S]*?</\1>  (\1对应前面的([a-zA-Z]+))

匹配div中内容不换行的标签:<div[^>]*>.*?</div>  (?代表非贪婪匹配)

匹配[……]

继续阅读

Python采集网页时正则表达式匹配换行符的问题

https://blog.csdn.net/lmb20056127/article/details/78205183

 

p1 = r'(?<=<div class=”ds_cr”>)(.*?)(?=<div id=”pageurl”>)’ #这样采集[……]

继续阅读

_mysql.c(42) : fatal error C1083: Cannot open include file: ‘config-win.h’:问题的解决

https://blog.csdn.net/u012882134/article/details/51934165/

 

在win7下安装了python后,想安装python-mysql,使用pip安装出现如下问题:

>pip install MySQL-pytho[……]

继续阅读

python 编码问题:’ascii’ codec can’t encode characters in position 的解决方案

https://www.cnblogs.com/yhl-yh/p/6728567.html

 

报错:

‘ascii’ codec can’t encode characters in position 8-50: ordinal not in range(128)

Pyt[……]

继续阅读

Python获取秒级时间戳与毫秒级时间戳

https://www.cnblogs.com/fangbei/p/python-time.html

 

1、获取秒级时间戳与毫秒级时间戳

import time
import datetime

t = time.time()

print (t)[......]

继续阅读

python写csv会加入空行解决办法

https://stackoverflow.com/questions/30929363/csv-writerows-puts-newline-after-each-row

 

This problem occurs only with Python on Windows.[……]

继续阅读

ASCII 、UTF-8、Unicode都是个啥啊,为啥会乱码啊?

https://m.toutiao.com/i6508698036997194253/

 

ASCII 、UTF-8、Unicode都是个啥啊,为啥会乱码啊?

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bi[……]

继续阅读

分分钟教你学会正则表达式

https://mp.weixin.qq.com/s/UxhBwnLPwEa5Upwagsc_aA

 

前言介绍正则表达式的实现及其应用场景。

Looog博客地址:

http://www.jianshu.com/p/060f15352867

正文

基础

  • \[……]

继续阅读

正则表达式匹配Html标签

https://www.cnblogs.com/anduinlothar/archive/2012/08/29/2662917.html

 

查找所有的TD区域(最短):
<td\s*.*>\s*.*<\/td>

查找所有的TR:
<tr[……]

继续阅读

Scrapy 入门学习笔记(3) — 使用 Item 类转换传输数据以及ItemLoader 机制解析

http://blog.csdn.net/Ahri_J/article/details/72466231

 

最近学习用 Scrapy 框架写爬虫,简单来说爬虫就是从网上抓取网页,解析网页,然后进行数据的存储与分析,将从网页的解析到数据的转换存储。将学习过程中用到的解析技术,S[……]

继续阅读