StarWild

破晓，晨光熹微。

Lofter Tag图文批量下载工具

存

--------------------------------------------------

20200722：

新增整理辅助工具，见最下

--------------------------------------------------

20200713：

更新1.0.7版

- 新增存文模式可以每个作者单独分文件夹

--------------------------------------------------

20200711:

更新1.0.6版

- TAG模式下输入【过滤关键词】会过滤TAG（但不会过滤标题和内容），非TAG模式下不会过滤TAG，只会过滤标题和内容

--------------------------------------------------

20200710：

更新1.0.5版

- 新增暂停按钮，TAG模式无效，点击之后会暂停，然后会多出一个【保存未下载完成的链接】的按钮，点击后会在选择的目录下生成一个叫“__UrlNotComplete”的txt文件，之后可以选择这个文件从暂停的进度继续开始

注意：暂停之后再按开始，【会从头开始！】

- 修正了存图卡住的问题

--------------------------------------------------

20200709：

更新1.0.4版

- 日志里可以看到url记录了。我意识到防Jubao没啥意义，反正也没Lof屏蔽的快

--------------------------------------------------

20200707：

更新1.0.2版

--------------------------------------------------

20200704：

更新1.0.1版

--------------------------------------------------

感谢LOFTER TAG下&同作者下图文批量下载方法的启发，写了个爬虫（？）软件

长这样：

使用效果这样：

文会按照网页标题存储（网页标题是文章标题-作者名这么个格式）成txt。

图会按照作者名创建文件夹单独存储，图片名第一个数字本身无意义，但如果相同，代表图片是同一篇日志中抓取的，第二个是图片在该日志中的编号

使用方法：

很重要的点：文和图的读取不一样！不管用哪种模式，都需要分别运行！（就算用的是看起来混在一起的红心模式或者作者模式！）一定要注意选存文or存图的选框！

【--- 20200704更新部分开始 ---】

【存TAG】

选择存储路径

选择TAG搜索模式，输入想要存的TAG名。
- 选存文还是存图不影响这一步
- 这一步关键词过滤只会过滤完全匹配的TAG
- 如果有过滤热度的需求建议在这一步做

完成后，会在存储位置生成两个txt文件：ArticalUrlFile.txt和PicUrlFile.txt

选择地址模式，点击选择文件，想要存文选择ArticalUrlFile，想要存图选择PicUrlFile

选择需要存的类型（勾选框的存文or存图），选择需要的设置，点击开始

完成后，会在存储路径下建立一个名为“__Log.txt”的日志文件

【存点过的红心】

使用Chrome或者其他可以复制网页源码的浏览器

在红心页面下拉到最底端（可以看到选择页数）

在页面的空白处右键 - 检查（Ctrl+Shift+I）

在最顶端的html标签处右键，选择Edit as HTML

Ctrl+A全选，复制到新建的文档中，保存为txt

（在软件中）选择喜欢模式，选择↑保存的文件，点击开始

（在lofter网页中）翻到下一页，重复以上步骤

因为会重复多次，建议建两个文件夹，存完一次清空一次之前的，因为图片不会自动重命名，只会跳过

红心页面不能和tag那样可以改地址翻页，只能手动一页一页存源码，麻烦了点

【--- 20200704更新部分结束 ---】

【--- 20200707更新部分开始 ---】

【作者模式】

在作者归档页面拖到底后保存源码（具体见红心模式）

选择作者模式，选择文件，点击开始

【--- 20200707更新部分结束 ---】

【应该没啥用了姑且还是列出来的小图模式】

能想到的用处只有拿来存总榜

TAG页面小图模式，滚轮滚到拉不动（或者到你需要的位置）

右键检查 - Edit as HTML - 保存为新的txt

（在软件中）选择地址模式，选择↑文件，配置，开始

设置介绍：

列表逆序：主要是为了重命名同名文件服务的，如果所存的url是按照章节顺序列的（比如从推文号/整理号获取的）就不要选，如果是用TAG页面扒的就需要勾选。默认勾选。

重命名同名文件：字面意思。有些太太发连载不会在标题写章节数，导致存储的时候会和之前的章节同名。不勾选的话会直接跳过后面的同名文件

过滤热度：字面意思，过滤热度在所填数目以下的作品。设置了可能会慢一点，因为会对热度进行一次正则匹配

过滤关键词：只对文有效。过滤标题及正文中含有所填关键词的文章。使用【英文】的分号（;）对多个关键词进行分割。
eg.【阅读体;占tag致歉;宣群】代表过滤含有【阅读体】或者【占tag致歉】或者【宣群】的文

检查日志：

推荐下载Notepad++来查看日志（EmEditor也行，但这个只有30天免费试用期）

第一部分配置，长这样

特别说明：读取到x个链接代表的是文件中含有x个链接，实际下载的数目会因为过滤而减少

第二部分

需要关注的内容会在最开始有个标签

【ERROR】类：代表存储途中出现错误。除了获取热度失败以外，其他都是没有成功存储内容。
    【ERROR】（链接）：错误说明（英文）：一般是网络类错误
    【ERROR】存在匹配失败的数据！：urlTxt文件中存在无法提取链接的数据，一般是出BUG了，碰到请告诉我
    【ERROR】【文章url】获取热度失败：在开了热度过滤之后才会出现，没有匹配到热度数据，可以手动检查
    【ERROR】文章url : 网页内容不存在或读取错误：一般是这篇文章被删了，碰到过一次网页存在但报错了，没能重现出来。为了防止这种情况，可以提取相关行（见下）重新存储一遍
    【ERROR】【文章url】【文章标题】错误：存储时出错

【IMG】：代表这篇文章中包含图片。依旧会存储网页的文字部分，同时会在创建的needCheckImg文件夹中保存一个内容部分的网页源码文件，方便确认图片地址（但直接从日志中打开原网页更快）

【IGNORE】【文章url】【文章标题】已过滤关键词 : 触发过滤的关键词：因为存在过滤关键词而被筛选掉的文章，可以提取相关行检查是否有误伤

【SAMENAME】打开重名自动改名后出现。代表有重名文件并且已经自动改名

提取日志行的方法：

Notepad++部分：

1. 点击搜索 - 标记...，在查找目标中填入需要提取的关键词（如【ERROR】），勾选“标记所在行”，点击标记全部。

2. 点击搜索 - 书签（倒数第二个） - 复制书签行

3. 新建文档（可以直接在tab栏双击）黏贴

Emeditor部分：

1. 点击搜索 - 查找（Ctrl+F），输入关键词，点击全部设为书签

2. 点击编辑 - 书签 - 提取书签行至新文件中

然后见↓，有BUG或者想要的需求可以在评论里告诉我

对了它可以在后台运行，不用一直看着哈

保存的文包的整理辅助工具：

按照作者分类，可能会有没分类成功的。
是根据-分割标题来拆分文章-作者名的，如果作者的名字里有“-”就可能拆出来不太对（但保证同一个作者都在一个文件夹里），如果作者名以“-”结尾，就会拆不出来，这时候手动分一下哈，不在作者文件夹里的这软件会识别不出来
以及这个也可以分非txt的，有些太太发图片的话我会重命名成文档的名字放在外层，然后用分类就会分去每个作者的文件夹了

作者那条的打开是打开作者的归档页，删除是删除这个作者的所有txt（删文件夹）