StarWild

破晓,晨光熹微。

Lofter Tag图文批量下载工具

残次品同人文整理:

--------------------------------------------------


20200722:


新增整理辅助工具,见最下


--------------------------------------------------


20200713:


更新1.0.7版


- 新增存文模式可以每个作者单独分文件夹


--------------------------------------------------


20200711:


更新1.0.6版


- TAG模式下输入【过滤关键词】会过滤TAG(但不会过滤标题和内容),非TAG模式下不会过滤TAG,只会过滤标题和内容


--------------------------------------------------


20200710:


更新1.0.5版


 - 新增暂停按钮,TAG模式无效,点击之后会暂停,然后会多出一个【保存未下载完成的链接】的按钮,点击后会在选择的目录下生成一个叫“__UrlNotComplete”的txt文件,之后可以选择这个文件从暂停的进度继续开始



注意:暂停之后再按开始,【会从头开始!】



 - 修正了存图卡住的问题


--------------------------------------------------


20200709:


更新1.0.4版


 - 日志里可以看到url记录了。我意识到防Jubao没啥意义,反正也没Lof屏蔽的快


--------------------------------------------------


20200707:


更新1.0.2版


--------------------------------------------------


20200704:


更新1.0.1版


--------------------------------------------------


感谢LOFTER TAG下&同作者下 图文批量下载方法的启发,写了个爬虫(?)软件


长这样:




使用效果这样:






文会按照网页标题存储(网页标题是文章标题-作者名这么个格式)成txt。


图会按照作者名创建文件夹单独存储,图片名第一个数字本身无意义,但如果相同,代表图片是同一篇日志中抓取的,第二个是图片在该日志中的编号




使用方法: 


很重要的点:文和图的读取不一样!不管用哪种模式,都需要分别运行!(就算用的是看起来混在一起的红心模式或者作者模式!)一定要注意选存文or存图的选框!


【--- 20200704更新部分开始 ---】


【存TAG】



  1. 选择存储路径


  2. 选择TAG搜索模式,输入想要存的TAG名。

    - 选存文还是存图不影响这一步

    - 这一步关键词过滤只会过滤完全匹配的TAG

    如果有过滤热度的需求建议在这一步做


  3. 完成后,会在存储位置生成两个txt文件:ArticalUrlFile.txt和PicUrlFile.txt


  4. 选择地址模式,点击选择文件,想要存文选择ArticalUrlFile,想要存图选择PicUrlFile


  5. 选择需要存的类型(勾选框的存文or存图),选择需要的设置,点击开始


  6. 完成后,会在存储路径下建立一个名为“__Log.txt”的日志文件





【存点过的红心】



  1. 使用Chrome或者其他可以复制网页源码的浏览器


  2. 在红心页面下拉到最底端(可以看到选择页数)


  3. 在页面的空白处右键 - 检查(Ctrl+Shift+I)


  4. 在最顶端的html标签处右键,选择Edit as HTML



  5. Ctrl+A全选,复制到新建的文档中,保存为txt


  6. (在软件中)选择喜欢模式,选择↑保存的文件,点击开始


  7. (在lofter网页中)翻到下一页,重复以上步骤


  8. 因为会重复多次,建议建两个文件夹,存完一次清空一次之前的,因为图片不会自动重命名,只会跳过




红心页面不能和tag那样可以改地址翻页,只能手动一页一页存源码,麻烦了点



【--- 20200704更新部分结束 ---】




【--- 20200707更新部分开始 ---】


【作者模式】



  1. 在作者归档页面拖到底后保存源码(具体见红心模式)


  2. 选择作者模式,选择文件,点击开始




【--- 20200707更新部分结束 ---】




【应该没啥用了姑且还是列出来的小图模式】



  1. 能想到的用处只有拿来存总榜


  2. TAG页面小图模式,滚轮滚到拉不动(或者到你需要的位置)


  3. 右键检查 - Edit as HTML - 保存为新的txt


  4. (在软件中)选择地址模式,选择↑文件,配置,开始





设置介绍: 



  • 列表逆序: 主要是为了重命名同名文件服务的,如果所存的url是按照章节顺序列的(比如从推文号/整理号获取的)就不要选,如果是用TAG页面扒的就需要勾选。默认勾选。


  • 重命名同名文件:字面意思。有些太太发连载不会在标题写章节数,导致存储的时候会和之前的章节同名。不勾选的话会直接跳过后面的同名文件


  • 过滤热度:字面意思,过滤热度在所填数目以下的作品。设置了可能会慢一点,因为会对热度进行一次正则匹配


  • 过滤关键词:只对文有效。过滤标题及正文中含有所填关键词的文章。使用【英文】的分号(;)对多个关键词进行分割。

    eg.【阅读体;占tag致歉;宣群】代表过滤含有【阅读体】或者【占tag致歉】或者【宣群】的文





检查日志:


推荐下载Notepad++来查看日志(EmEditor也行,但这个只有30天免费试用期)


第一部分配置,长这样





特别说明:读取到x个链接代表的是文件中含有x个链接,实际下载的数目会因为过滤而减少



第二部分


需要关注的内容会在最开始有个标签



  • 【ERROR】类:代表存储途中出现错误。除了获取热度失败以外,其他都是没有成功存储内容。

        【ERROR】(链接) : 错误说明(英文):一般是网络类错误

        【ERROR】存在匹配失败的数据!:urlTxt文件中存在无法提取链接的数据,一般是出BUG了,碰到请告诉我

        【ERROR】【文章url】获取热度失败:在开了热度过滤之后才会出现,没有匹配到热度数据,可以手动检查

        【ERROR】文章url : 网页内容不存在或读取错误: 一般是这篇文章被删了,碰到过一次网页存在但报错了,没能重现出来。为了防止这种情况,可以提取相关行(见下)重新存储一遍

        【ERROR】【文章url】【文章标题】错误 :存储时出错


  • 【IMG】:代表这篇文章中包含图片。依旧会存储网页的文字部分,同时会在创建的needCheckImg文件夹中保存一个内容部分的网页源码文件,方便确认图片地址(但直接从日志中打开原网页更快)


  • 【IGNORE】【文章url】【文章标题】已过滤关键词 : 触发过滤的关键词 :因为存在过滤关键词而被筛选掉的文章,可以提取相关行检查是否有误伤


  • 【SAMENAME】打开重名自动改名后出现。代表有重名文件并且已经自动改名





提取日志行的方法:



Notepad++部分:



1. 点击搜索 - 标记...,在查找目标中填入需要提取的关键词(如【ERROR】),勾选“标记所在行”,点击标记全部。


2. 点击搜索 - 书签(倒数第二个) - 复制书签行


3. 新建文档(可以直接在tab栏双击)黏贴





Emeditor部分:



1. 点击搜索 - 查找(Ctrl+F),输入关键词,点击全部设为书签


2. 点击编辑 - 书签 - 提取书签行至新文件中




然后见↓,有BUG或者想要的需求可以在评论里告诉我


对了它可以在后台运行,不用一直看着哈




保存的文包的整理辅助工具:






按照作者分类,可能会有没分类成功的。
是根据-分割标题来拆分文章-作者名的,如果作者的名字里有“-”就可能拆出来不太对(但保证同一个作者都在一个文件夹里),如果作者名以“-”结尾,就会拆不出来,这时候手动分一下哈,不在作者文件夹里的这软件会识别不出来
以及这个也可以分非txt的,有些太太发图片的话我会重命名成文档的名字放在外层,然后用分类就会分去每个作者的文件夹了








作者那条的打开是打开作者的归档页,删除是删除这个作者的所有txt(删文件夹)





评论
热度 ( 576 )
  1. 共108人收藏了此文字
  2. BIU~~~~残次品同人文整理 转载了此文字
只展示最近三个月数据

© StarWild | Powered by LOFTER