博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用Python写的第一个网络爬虫程序
阅读量:7049 次
发布时间:2019-06-28

本文共 793 字,大约阅读时间需要 2 分钟。

今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中。

此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下。

1, 使用url打开站点网页

import urllib2data = urllib2.urlopen(string_full_link).read().decode('utf8')
 
print data
2,使用正則表達式匹配

import re#一般的英文匹配reg = """a href=\S* target='_blank' title=\S*"""dicList = re.compile(reg).findall(data)print dicList
#中文的正则匹配,须要使用中文相应的unicode码reg=u"\u5730\u5740\S*"      #“地址”相应的 unicode codeaddrList = re.compile(reg).findall(sub_data)
print addrList
3,写数据到excel文件

import xlrdimport xlwt        file = xlwt.Workbook()        table = file.add_sheet('hk', cell_overwrite_ok=True)        print index, name, addr, tel        table.write(index, 0, name)        table.write(index, 1, addr)        table.write(index, 2, tel)                file.save("""D:\\test.xls""")

转载地址:http://rldol.baihongyu.com/

你可能感兴趣的文章
js的初始化
查看>>
如何让图片在垂直方向与 div的底部对齐 水平居中
查看>>
UploadFile控件,提交图片后,页面预览显示刚刚提交的图片
查看>>
调查:2013年十大急需的热门IT人才
查看>>
为什么memset的第二个参数不把int替换成char
查看>>
超级芯片电路板问世 比现有电脑快9000倍
查看>>
求幂算法
查看>>
使用asp.net调用谷歌地图api
查看>>
文件读取输入
查看>>
Mysql5.7初始化成空密码或随机密码的方式
查看>>
贝中斯公式相关知识
查看>>
UseAdaptiveSizePolicy与CMS垃圾回收同时使用导致的JVM报错
查看>>
编程生涯
查看>>
WebStorm设置编辑器中的字体大小
查看>>
JAVA 8 默认方法-Default Methods
查看>>
Eclipse启动时选择workspace设置
查看>>
左图有文本,图片自由缩放
查看>>
SQL Server中的锁
查看>>
js时间戳格式化成日期格式的多种方法
查看>>
gdb fabs错误输出
查看>>