快捷导航
我在爬一个数据量特别大的网站,大约有6w条数据

我现在突然想到可以把免费在线视频的网址分出来,这样可以多线程免费在线视频,提高效率

请问,有办法能把免费在线视频的网址提取出来吗

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2019-8-14 11:49

沙发
Fuller 管理员 发表于 2019-8-14 10:04:22 | 只看该作者
网址现在是在哪里?是在网页上?还是存在某个文件里面?

如果是网页上,那么做一个层级免费在线视频,第一级免费在线视频网址,生成下级线索,第二级就可以用爬虫群并行免费在线视频,参看层级免费在线视频的教程:https://www.gooseeker.com/doc/article-343-1.html

如果网址是存在文件中的,把他们存入excel,导入给爬虫任务就行。具体参看添加线索的教程:https://www.gooseeker.com/doc/thread-667-1-1.html
举报 使用道具
板凳
657344626 初级会员 发表于 2019-8-14 10:24:16 | 只看该作者
Fuller 发表于 2019-8-14 10:04
网址现在是在哪里?是在网页上?还是存在某个文件里面?

如果是网页上,那么做一个层级免费在线视频,第一级免费在线视频网 ...

我先用第一级任务免费在线视频的网址。
现在所有网址全都在第二级任务里。

因为有6万多条,我没打算用爬虫群,我需要xml文件,最后手动再把它转成excel文件

现在的问题是,单线程跑这6万多条数据太耗费时间了
我的想法是能不能把第二级任务里免费在线视频的这六万多条数据分批次导出来,然后我再另外建立几个任务,分批次多线程爬取

举报 使用道具
地板
wangyong 版主 发表于 2019-8-14 10:30:48 | 只看该作者
657344626 发表于 2019-8-14 10:24
我先用第一级任务免费在线视频的网址。
现在所有网址全都在第二级任务里。

这种情况可以用爬虫群模式进行多线程爬取
教程:https://www.gooseeker.com/doc/article-474-1.html
举报 使用道具
5#
657344626 初级会员 发表于 2019-8-14 10:51:29 | 只看该作者
wangyong 发表于 2019-8-14 10:30
这种情况可以用爬虫群模式进行多线程爬取
教程:https://www.gooseeker.com/doc/article-474-1.html
...

可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应上)所以我现在在担心这个方法是不是不能用

举报 使用道具
6#
Fuller 管理员 发表于 2019-8-14 10:52:09 | 只看该作者
657344626 发表于 2019-8-14 10:24
我先用第一级任务免费在线视频的网址。
现在所有网址全都在第二级任务里。

设置爬虫群调度参数,自动打包上传:https://www.gooseeker.com/doc/article-474-1.html
举报 使用道具
7#
657344626 初级会员 发表于 2019-8-14 11:00:23 | 只看该作者
Fuller 发表于 2019-8-14 10:52
设置爬虫群调度参数,自动打包上传:https://www.gooseeker.com/doc/article-474-1.html
...

可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应上)所以我现在在担心这个方法是不是不能用
举报 使用道具
8#
wangyong 版主 发表于 2019-8-14 11:49:36 | 只看该作者
657344626 发表于 2019-8-14 11:00
可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应 ...

xml文件名命名和附件命名没有直接关系,在xml内部会存储和附件名称的对应关系,另外如果在一台电脑上同时下载附件也不会因为多线程有什么混乱
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具免费在线播放关键
  • 用于清洗文本内容的Excel函数公式

热门用户

GMT+8, 2019-9-9 07:53