純美蘋果園
TRPG討論區 => 研討區 => 主题作者是: zghzgh1779 于 2015-09-20, 周日 00:31:53
-
那么闲话少说直入正题
1.论坛url的结构
论坛的url只有两种类型,范例分别如下:
http://community.wizards.com/forums/103106?page=4
http://community.wizards.com/forum/product-and-general-dd-discussions/threads/4255431?page=2
第二个url是每个贴子的url,这种url是按照版面分类的,可以分区进行抓取,换言之,如果多人合作抓取镜像的话,应该以版面为分配原则
第一个url则是每个分区的url,注意与贴子的url不同,这里是forums,所以所有分区目录的url也需要单独抓取一次
2.关于嗅探层数的问题
分区和贴子上的超链接无法一次链接到5页之后;换言之,假如在“eberron版面的第9页”作为起始地址开始嗅探的话,那么嗅探三层通常只能到达第21页,所以在抓取时应当适当增加嗅探层数并设置分区的不同页数的url作为起始地址(例如page=10处设置一个起始地址,page=20处增加一个地址,下同)
但是那些摩天大楼在没有付出足够成本的前提下,仍然可能丢失中间的大量楼层
3.然而喵因为各种各样的原因,白天没法用电脑,只能精神上期待有人能做个镜像出来,或者卫生纸脑子突然开窍放论坛数据一马…… :em003
-
還有很多, 以下只花了幾分鐘找:
http://community.wizards.com/comment/52453986#comment-52453986
http://community.wizards.com/content/forum-topic/3204886
http://community.wizards.com/content/blog/4229756
http://community.wizards.com/dungeons-and-dragons
http://community.wizards.com/users/The_Jester
http://community.wizards.com/wiki-listing/41
http://community.wizards.com/group/wiki/4eproducts
http://community.wizards.com/node/3916741/talk
-
原来blog也是挂在论坛下面的?!
(从来没有点进去过233
-
原来blog也是挂在论坛下面的?!
(从来没有点进去过233
官方 Blog 及活躍人仕的 Blog 算是官網的一個賣點了。
另外就是我相信你沒有辦法分開 D&D 和 MTG 論壇,要抓只能一起抓。
我找了部高速電腦+高速網路抓了半天都只有九牛一毛,看上去非常不妙。
-
贴子勉强可以按版面分
但是每个分区的页面目测就只能和mtg论坛一起抓了
这还算好的,博客之类反正喵是不知道怎么分……
果然只能指望卫生纸高抬贵手了么……
-
每一萬頁大約需要 15-20 GB,以 HTML 為主。
肯定超過十萬頁,實際有多少還不清楚。基本確定不可能全抓。
沒有甚麼特別的話,下次報告應該是幾日後的事。
-
上次看錯了,每一萬頁大約需 1.5GB,不是 15。
已抓了約三十萬頁,待索引頁的增長明顯放緩,但依然沒看見終點。
-
羊姐姐辛苦了...