成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

panjinyou 发表于 2020-3-21 10:22:44

首先科普下 PornHub 是个啥东东？PornHub 是全球最大的成人网站，这个网站是07年搞起来的。在 10 年的时候被一个神秘组织 - MindGeek 收购。该组织据说收购了多个色情网站，可谓是全球最大的色情联盟。具体坐标未知。
并且 PornHub 是据我所知，成人网站中第一个上 Https 协议的,而且是全链路 Https 。还有一个牛逼的数据：Pornhub 的日访客数量达到了 7500万以上。根据 Alexa 的网站排名，Pornhub 在所有网站中排在第 38 位，紧随 eBay 之后。
同时 PornHub 也是一个极其创新的网站，从之前的联系多名歌手打造具有 PornHub 特色的音乐平台到前短时间的“熊猫事件”，各种天马行空的创新也是不少公司应该学习的地方。
以上的数据也就足以证明 PornHub 是全球最大的、安全的成人网站。
PornHubBotPornHubBot 是基于 Scrapy 框架爬取 PornHub.com 数据的项目，并将数据存储在 MongoDB。
1、项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接
2、项目爬的是PornHub.com，结构简单，速度飞快
3、爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络，所以相对慢一点。
4、10个线程同时请求，可达到如上速度。若个人网络环境更好，可启动更多线程来请求，具体配置方法见 [启动前配置]**
具体的源代码，点击 https://github.com/xiyouMc/WebHubBot
环境、架构开发语言: Python2.7
开发环境: MacOS系统、4G内存
数据库: MongoDB
1、主要使用 scrapy 爬虫框架
2、从Cookie池和UA池中随机抽取一个加入到Spider
3、start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
4、并支持分页爬取数据，并加入到待爬队列。
使用说明启动前配置1、安装MongoDB,并启动，不需要配置
2、安装Scrapy
3、安装Python的依赖模块：pymongo、json、requests
4、根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置
启动python PornHub/quickstart.py
运行截图

数据库说明数据库中保存数据的表是 PhRes。
以下是字段说明:video_title: 视频的标题,并作为唯一标识.
link_url: 视频调转到 PornHub 的链接
image_url: 视频的封面链接
video_duration: 视频的时长，以 s 为单位
quality_480p: 视频480p的 mp4 下载地址
总结“声明”，本文旨在介绍 Scrapy 爬虫框架和 MongoDB 数据库，项目简单、易懂。
切勿使用在商业、个人其他意图中。若使用不当，均由个人承担责任。

页: [1]

南京金友网 做南京人的网上家园's Archiver

成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

南京金友网做南京人的网上家园's Archiver