最新微软官方MSDN原版Win10系统下载

深度优化版 电脑公司专业版 XP旗舰版 XP专业版64位 Win10正式版
当前位置: 主页 > IT资讯 > 网络

米乐M6-01 专注于爬虫技术

时间:2022-09-21    来源:米乐M6    人气:

01 专注于爬虫技术

聚焦网络爬虫 ( ) 也称为主题网络爬虫。聚焦爬虫技术增加了链接评估和内容评估模块。其爬取策略的关键在于评估页面内容和链接的重要性。

基于链接评价的爬取策略主要使用网页作为半结构化文档,其中包含大量结构信息可用于评价链接的重要性。另一种方法是使用Web结构来评估链接的价值,即HITS方法,通过计算每个访问页面的权重和Hub的权重来确定链接访问的顺序。

基于内容评价的爬取策略主要应用类似于文本的计算方法,提出了以用户输入的查询词为主题的Fish-。随着算法的进一步改进,Shark-算法可以使用空间向量模型来计算页面和主题相关大小。

面向主题的爬虫,面向需求的爬虫:会针对特定的内容爬取信息,并尽可能保证信息和需求相关。下面显示了如何使用简单的焦点爬虫的示例。

import urllib.request
    # 爬虫专用的包urllib,不同版本的Python需要下载不同的爬虫专用包
import re
    # 正则用来规律爬取
keyname=""
    # 想要爬取的内容
key=urllib.request.quote(keyname)
    # 需要将你输入的keyname解码,从而让计算机读懂
for i in range(0,5):   # (0,5)数字可以自己设置,是淘宝某产品的页数
    url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180815&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i*44)
# url后面加上你想爬取的网站名,然后你需要多开几个类似的网站以找到其规则
# data是你爬取到的网站所有的内容要解码要读取内容
    pat='"pic_url":"//(.*?)"'
# pat使用正则表达式从网页爬取图片
# 将你爬取到的内容放在一个列表里面
    print(picturelist)
    # 可以不打印,也可以打印下来看看
    for j in range(0,len(picturelist)):
        picture=picturelist[j]
        pictureurl="http://"+picture
        # 将列表里的内容遍历出来,并加上http://转到高清图片
        file="E:/pycharm/vscode文件/图片/"+str(i)+str(j)+".jpg"
        # 再把图片逐张编号,不然重复的名字将会被覆盖掉
        urllib.request.urlretrieve(pictureurl,filename=file)
        # 最后保存到文件夹

02 万能爬虫技术

通用爬虫技术(Web)是整个网络爬虫。实现过程如下。

通用爬虫技术的应用有不同的爬取策略,其中广度优先策略和深度优先策略更为关键。例如,深度优先策略的实现是按照深度从低到高的顺序访问下一级的网络链接。

如何使用通用爬虫的示例如下。

'''
爬取京东商品信息:
    请求url:https://www.jd.com/
    提取商品信息:
        1.商品详情页
        2.商品名称
        3.商品价格
        4.评价人数
        5.商品商家
'''
from selenium import webdriver    # 引入selenium中的webdriver
from selenium.webdriver.common.keys import Keys
import time
def get_good(driver):
    try:
        # 通过JS控制滚轮滑动获取所有商品信息
        js_code = '''
            window.scrollTo(0,5000);
        '''
        driver.execute_script(js_code)  # 执行js代码
        # 等待数据加载
        time.sleep(2)
        # 查找所有商品div
        # good_div = driver.find_element_by_id('J_goodsList')
        good_list = driver.find_elements_by_class_name('gl-item')
        n = 1
        for good in good_list:
            # 根据属性选择器查找
            # 商品链接
            good_url = good.find_element_by_css_selector(
                '.p-img a').get_attribute('href')
            # 商品名称
            good_name = good.find_element_by_css_selector(
                '.p-name em').text.replace("\n", "--")
            # 商品价格
            good_price = good.find_element_by_class_name(
                'p-price').text.replace("\n", ":")
            # 评价人数
            good_commit = good.find_element_by_class_name(
                'p-commit').text.replace("\n", " ")
            good_content = f'''
                        商品链接: {good_url}
                        商品名称: {good_name}
                        商品价格: {good_price}
                        评价人数: {good_commit}
                        \n
                        '''
            print(good_content)
            with open('jd.txt', 'a', encoding='utf-8') as f:
                f.write(good_content)
        next_tag = driver.find_element_by_class_name('pn-next')
        next_tag.click()
        time.sleep(2)
        # 递归调用函数
        get_good(driver)
        time.sleep(10)
    finally:
        driver.close()
if __name__ == '__main__':
    good_name = input('请输入爬取商品信息:').strip()
    driver = webdriver.Chrome()
    driver.implicitly_wait(10)
    # 往京东主页发送请求
    driver.get('https://www.jd.com/')
    # 输入商品名称,并回车搜索
    input_tag = driver.find_element_by_id('key')
    input_tag.send_keys(good_name)
    input_tag.send_keys(Keys.ENTER)
    time.sleep(2)
    get_good(driver)

03 增量爬虫技术

有些网站会根据原始网页数据定期更新一批数据。比如电影网站会实时更新一批近期热门电影,小说网站会根据作者创作进度实时更新最新章节数据。当遇到类似的场景时,我们可以使用增量爬虫。

增量爬虫技术(Web)是通过爬虫程序监控一个网站的数据更新,从而可以爬取该网站更新的新数据。

关于如何进行增量爬取工作网络爬虫 c,给出以下三种检测重复数据的思路:

发送请求前判断URL是否已经被爬取;解析内容后判断这部分内容是否被爬取;在写入存储介质时判断该内容是否已经存在于介质中。

不难发现,实现增量爬取的核心就是去重。目前有两种去重方法。

下面显示了如何使用增量爬虫的示例。

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from incrementPro.items import IncrementproItem
class MovieSpider(CrawlSpider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.4567tv.tv/frim/index7-11.html']
    rules = (
        Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'), callback='parse_item', follow=True),
    )
    # 创建Redis链接对象
    conn = Redis(host='127.0.0.1', port=6379)
    def parse_item(self, response):
        li_list = response.xpath('//li[@class="p1 m1"]')
        for li in li_list:
            # 获取详情页的url
            detail_url = 'http://www.4567tv.tv' + li.xpath('./a/@href').extract_first()
            # 将详情页的url存入Redis的set中
            ex = self.conn.sadd('urls', detail_url)
            if ex == 1:
                print('该url没有被爬取过,可以进行数据的爬取')
                yield scrapy.Request(url=detail_url, callback=self.parst_detail)
            else:
                print('数据还没有更新,暂无新数据可爬取!')
    # 解析详情页中的电影名称和类型,进行持久化存储
    def parst_detail(self, response):
        item = IncrementproItem()
        item['name'] = response.xpath('//dt[@class="name"]/text()').extract_first()
        item['kind'] = response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()
        item['kind'] = ''.join(item['kind'])
        yield it

管道文件:

from redis import Redis
class IncrementproPipeline(object):
    conn = None
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
    def process_item(self, item, spider):
        dic = {
            'name':item['name'],
            'kind':item['kind']
            }
        print(dic)
        self.conn.push('movieData',dic)    
        # 如果push不进去,那么dic变成str(dic)或者改变redis版本   
        pip install -U redis==2.10.6
        return item

04 深网爬虫技术

在互联网中网络爬虫 c米乐M6,网页按存在方式可分为表层网页和深层网页。

所谓表面网页,是指无需提交表单,使用静态链接即可到达的静态页面;而深层网页隐藏在表单后面米乐M6,无法通过静态链接直接获取。获取页面最重要的部分,深网爬虫(deep Web)是表单填写部分。

在互联网中,深度网页的数量往往远远大于表面网页的数量,所以我们需要想办法爬取深度网页。

一个深网爬虫的基本组件:URL列表、LVS列表(LVS是指标签/值集合,即填充表单的数据源)、爬取控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。

深度网络爬虫有两种类型的表单填写:

作者简介:赵国胜,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。主要从事可信网络、入侵容忍、认知计算、物联网安全等领域的教学和科研工作。

本文摘自《网络爬虫技术与实践》,经出版社授权发布。

推荐文章

公众号