热点聚集

火车头采集时采网址

所以下面给出临时的解决办法:我这里是用的火车头采集器2010sp2个人版。

商业版网民的采集后的网址都存储在 PageUrl目录里面的,一个任务对应一个db3.大家可以从最上面的任务往下数第一个,对应的就是Site_*.db3.这样大家可以先备份一下,然后清空也不怕了,到时候直接还原网民名既可以,如果怕出错,全部保存,一会恢复即可。

如图:

若想更进一步的查看,这一个db3其实是sqlite数据库格式的文件,可以用db3数据库编辑器查看撰改。根据jobid查看,有朋友问不知道jobid怎么办,呵呵,大家可以到 Data目录查看 3-新浪国内新闻后面的新浪国内新闻就是你自定义的网站栏目名称。这一个跟jobid对应上即可。

如图:

最后大家备份好数据库以后就可以(需要备份在 PageUrl与 Data目录的你的任务名对应的文件夹,最好是全部以防万一,采集完就可以覆盖下。)

后来从网站也看到了如下文件,跟我的这篇大同小异。大家可参考下。

火车头是一个不错的采集软件,“盗亦有道”,看你如何利用了。

Linker以前也偶尔研究下火车头采集软件,只是一直没有购物商业版本,想一想,现在的版本远没有以前的1.x和2.x版本来得爽快。

一位兄弟,昨晚说他的火车头采集软件(公司版本的哦,有钱人!),总是提示任务地址库重复,研究了下,比较简单,告诉了他处理的方法,另外,经历搜索发现,火车头的3.0 sp1版本有过这一个bug,清除不掉任务地址库,但管理员已经在sp2版本中解决掉这一个问题了。

后来这位朋友又问火车头采集软件的任务地址库是哪个文件?怎么样保存任务地址库?怎么样手动清理任务地址库文件?据Linker所知,编辑任务地址库,需要是商业版本了,若想手动来处理,可以发现,手动地址库文件是在火车头根目录下的pageurl目录中,每一个任务对应一个地址库文件,mdb格式的,打开可以发现,详细地址是被加密了。火车头也有些太商业了,嘿嘿!

既然知道任务地址库的位置和文件了,手动清理任务地址库,自然就简单了。删除让火车头重复(删除后,编辑该任务,再保存),或直接删除该库里面的记录,都能。想另存为其他任务所用,重命令为其它任务的id就行了。

简单测试通过。原创文章。

火车头采集后的网址存储位置及如何备份和清理

火车头商业版采集网址管理详解</

商业版网民在使用火车头采集后,网址数据存储在PageUrl目录下的db3文件中,每个任务对应一个独特的Site_*.db3文件。为了数据安全,建议先备份,即便清空也不必担心,只需恢复网民名即可。对于jobid的识别,可以通过查看Data目录下的文件名,例如"3-新浪国内新闻",它与jobid相对应。务必保存在对应任务的文件夹,以防万一。

虽然火车头曾有些许版本不如早期的1.x和2.x版本便捷,但作为优秀的采集工具,其商业版本的使用者可体验到更加多功能。例如,有位朋友碰到地址库重复的提示,其实这是3.0 sp1的一个已修复的bug。在商业版中,地址库文件是mdb格式,位于火车头根目录的pageurl目录,每个任务对应一个加密的地址库文件。

管理与清理任务地址库</

要手动管理或清理地址库,商业版网民可以访问这些文件。清除重复地址或直接删除记录都是可实现的。若想将文案内容转移给其他任务,只需重命名文件并指定新任务的id。经历测试,这一个操作流程非常直观且有效。

总结来说,虽然火车头在某些方面显得商业化,但它的强大功能和管理工具无疑为网民提供了便利。希望这些信息对您的采集职业生涯获得帮助。

上一篇:潍坊营销咨询推广服务?潍坊出租车收费标准 潍坊出租车叫车平台

下一篇:灰色生意是哪些行业?十大暴利灰色行业


标题:火车头采集器是干嘛的?火车头采集时采网址    

地址:http://www.wenfangge.com/rwfb/86642.html


注明“来源:文芳阁”的所有作品,版权均属于文芳阁软文推广平台,未经本网授权不得转载、摘编或利用其它方式使用上述作品,如有对内有异议请及时联系btr2030@163.com,本人将予以删除。