DMOZ中文网站分类目录-免费收录各类优秀网站的中文网站目录.
  • DmozDir.org
DMOZ目录快速登录入口-免费收录各类优秀网站的中文网站目录.由人工编辑,并提供网站分类目录检索及地区分类目录检索,是站长免费推广网站的有力平台!

CSS常见反爬技术

  • CSS常见反爬技术

  • 已被浏览: 32 次2020年10月15日    来源:  https://www.cnblogs.com/guyouyin123/p/13819823.html
  • 目录利用字体反爬原理应对措施难点:利用背景反爬原理应对措施利用伪类反爬原理应对措施利用元素定位反爬原理应对措施利用字符切割反爬原理应对措施反爬原理:1、主要利用font-family属性,例如设置为my-font2、在HTML里面不常见(

    目录
    • 利用字体
      • 反爬原理
      • 应对措施
      • 难点:
    • 利用背景
      • 反爬原理
      • 应对措施
    • 利用伪类
      • 反爬原理
      • 应对措施
    • 利用元素定位
      • 反爬原理
      • 应对措施
    • 利用字符切割
      • 反爬原理
      • 应对措施

    利用字体

    反爬原理

    反爬原理:
    1、主要利用font-family属性,例如设置为my-font
    2、在HTML里面不常见(不可读)的unicode
    3、在CSS字体(my-font)中将其映射到常见(可读)到字体,例如数字
    4、爬虫在抓取数据的时候只能抓到unicode,而不是真实的数据
    

    应对措施

    1、下载woff字体文件,转化为tff文件
    2、用百度字体编辑器打开tff文件,并确定其unicode与其实际的映射关系
    3、将下载的HTML内容按照映射关系替换
    4、解析HTML并获取正确的数据
    

    难点:

    有些网站会动态生成woff,这种反爬措施比较难以自动化绕开
    

    利用背景

    反爬原理

    1、数据利用图片背景(雪碧图坐标)展示给用户,而不是直接文本展示
    2、图片包含一张雪碧图,数据利用背景偏移量来获取(雪碧图坐标)
    3、爬虫在抓取的时候看不到实际值,而只是图片
    

    应对措施

    1、下载雪碧图,手动检查数据对应的坐标值
    2、找到数据对应的坐标值的映射关系
    3、找到映射关系,转化为真实数据
    

    利用伪类

    反爬原理

    1、不直接将内容展现到html的元素中
    2、通过伪类的content属性将要展示的值展示出来
    
    例如:鼠标悬浮的时候展示数据
    

    应对措施

    1、利用pyppeteer或者selenium这样的自动化测试工具
    2、在页面上执行下面的JS代码,即可获取content
    注意:before是伪类,也可能是after
    
    JS代码:
    const el = document.querySelector("类选择器")
    const styles = getComputedStyle(el,"before")
    console.log(styles.content)  # 打印数据值
    
    
    

    利用元素定位

    反爬原理

    1、利用绝对定位,将数据用其他符号替换,偏移量
    2、替换的符号随机的
    3、如果直接抓取,将抓到错误的信息
    

    应对措施

    计算出替换的元素偏移量,与被替换的元素相对比,还原实际值
    

    利用字符切割

    反爬原理

    1、将字符串用标签分割
    2、由于是内联块级(inline-block),可以一行展示
    3、通常还混淆有不现实的标签(display:none)
    

    应对措施

    1、将内联块级标签的innerText拼接起来
    2、注意过滤掉所有的display:none的属性
    

    以上信息来源于网络,如有侵权,请联系站长删除。

    TAG:常见 技术 CSS

  • 上一篇:我是如何成功准备VUE项目之前的开发环境?
  • 与“CSS常见反爬技术”相关的资讯
  • 用PHP实现一些常见的排序算法
  • Java Web 会话技术总结
  • 如何给品牌起名?这有几种常见的方法
  • Java面试必备的12个技术点解析:Spring全家桶+微服务+Redis+Netty+Kafka等,你掌握了多少?
  • 熬出头了,4轮技术面+1轮HR面终进阿里,定级P7级