From a8dd020c9880964286d19694fb8e87228a98c6e8 Mon Sep 17 00:00:00 2001 From: kingsmai Date: Wed, 23 Apr 2025 16:46:52 +0800 Subject: [PATCH] =?UTF-8?q?Add=20=E6=80=9D=E8=B7=AF.txt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 思路.txt | 33 +++++++++++++++++++++++++++++++++ 1 file changed, 33 insertions(+) create mode 100644 思路.txt diff --git a/思路.txt b/思路.txt new file mode 100644 index 0000000..240a5f7 --- /dev/null +++ b/思路.txt @@ -0,0 +1,33 @@ +我想要爬取这个网页 https://www.kenney.nl/assets/page:1 下(共有 13 页) +//*[@id="content"]/section/div/div[1] 这个元素(里边是 n 个 div 元素) +我需要获取每个 Div 元素的 +//*[@id="content"]/section/div/div[1]/div[1]/div/a 这个 a 元素 +将它的链接保存成一个列表 + +然后依次访问这个列表中的所有页面, + +CSV 格式如下: +资源名称, 分类, 系列, 资源数, 标签(有多个),资源数量 + +访问这个界面,然后我需要获取它的所有信息: +资源名称://*[@id="content"]/section/div/div/div[1]/h1 + +各种属性://*[@id="content"]/section/div/div/div[1]/table[1]/tbody +上面这个表,他是个两列 N 行的表。 +表的左侧可以看作是 key: Category, Series, Assets, Variation(s), Tags, License 等…… +表的右侧是 Value,但它可能会有各种组成方式,下边是常见的: +- 普通的 td > a +- 只有 td +- td 之后有多个 a(如 Tags) + +更新记录://*[@id="content"]/section/div/div/div[1]/table[2]/tbody +他也是个两行 N 列的表, +左侧是更新日期 dd/mm/yyyy +右侧是 td > 第一个 span 是版本,第二个 span 是更新内容,有时候没有第二个 span + +继续增加 parse_resource_page(url) 函数, +我需要获取它的封面图://*[@id="content"]/section/div/div/div[2]/a/img +以及其他图片(如有) +//*[@id="content"]/section/div/div/div[2]/div 这里子元素可能有 n 个 div,我需要拿到它的 img +//*[@id="content"]/section/div/div/div[2]/div/div[1]/a/img +封面图存了之后,也得加在图集的数组里。 \ No newline at end of file