From a8dd020c9880964286d19694fb8e87228a98c6e8 Mon Sep 17 00:00:00 2001
From: kingsmai <xsbugh@gmail.com>
Date: Wed, 23 Apr 2025 16:46:52 +0800
Subject: [PATCH] =?UTF-8?q?Add=20=E6=80=9D=E8=B7=AF.txt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 思路.txt | 33 +++++++++++++++++++++++++++++++++
 1 file changed, 33 insertions(+)
 create mode 100644 思路.txt

diff --git a/思路.txt b/思路.txt
new file mode 100644
index 0000000..240a5f7
--- /dev/null
+++ b/思路.txt
@@ -0,0 +1,33 @@
+我想要爬取这个网页 https://www.kenney.nl/assets/page:1 下（共有 13 页）
+//*[@id="content"]/section/div/div[1] 这个元素（里边是 n 个 div 元素）
+我需要获取每个 Div 元素的
+//*[@id="content"]/section/div/div[1]/div[1]/div/a 这个 a 元素
+将它的链接保存成一个列表
+
+然后依次访问这个列表中的所有页面，
+
+CSV 格式如下：
+资源名称, 分类, 系列, 资源数, 标签（有多个）,资源数量
+
+访问这个界面，然后我需要获取它的所有信息：
+资源名称：//*[@id="content"]/section/div/div/div[1]/h1
+
+各种属性：//*[@id="content"]/section/div/div/div[1]/table[1]/tbody
+上面这个表，他是个两列 N 行的表。
+表的左侧可以看作是 key: Category, Series, Assets, Variation(s), Tags, License 等……
+表的右侧是 Value，但它可能会有各种组成方式，下边是常见的：
+- 普通的 td > a
+- 只有 td
+- td 之后有多个 a（如 Tags)
+
+更新记录：//*[@id="content"]/section/div/div/div[1]/table[2]/tbody
+他也是个两行 N 列的表，
+左侧是更新日期 dd/mm/yyyy
+右侧是 td > 第一个 span 是版本，第二个 span 是更新内容，有时候没有第二个 span
+
+继续增加 parse_resource_page(url) 函数，
+我需要获取它的封面图：//*[@id="content"]/section/div/div/div[2]/a/img
+以及其他图片（如有）
+//*[@id="content"]/section/div/div/div[2]/div 这里子元素可能有 n 个 div，我需要拿到它的 img
+//*[@id="content"]/section/div/div/div[2]/div/div[1]/a/img
+封面图存了之后，也得加在图集的数组里。
\ No newline at end of file