Save The Web Project @saveweb Channel on Telegram

Save The Web Project

@saveweb


#STWP #STW #saveweb

A tiny web archival team

https://saveweb.org/㋿Ξ㍾㍿/ʇɔǝɾoɹԀ-qǝM-ǝɥʇ-ǝʌɐS.html​/../../../
https://github.com/saveweb

Save The Web Project (English)

Save The Web Project, also known as @saveweb, is a dedicated and passionate team working on web archival. Their main goal is to preserve and save the vast content available on the web for future generations. They use cutting-edge technology and innovative methods to ensure that valuable web data is not lost or forgotten.

The team behind Save The Web Project is made up of a group of experts in web archiving, data preservation, and digital content management. They are committed to their mission of safeguarding the ever-evolving landscape of the internet. By collaborating with other like-minded organizations and individuals, they strive to create a comprehensive archive of web content that spans across various topics and interests.

Save The Web Project invites anyone who is interested in web archiving, digital preservation, or simply wants to contribute to this important cause to join their channel. By becoming a member, you can stay updated on the latest developments in web archiving, participate in discussions, and even contribute your own ideas to help save the web.

If you are passionate about preserving the history and culture of the internet, Save The Web Project is the perfect channel for you. Join @saveweb today and be a part of this crucial mission to save the web for future generations. Don't let valuable web content disappear into obscurity - be a part of the solution with Save The Web Project! #STWP #STW #saveweb

To learn more about Save The Web Project and their initiatives, visit their website at https://saveweb.org/㋿Ξ㍾㍿/ʇɔǝɾoɹԀ-qǝM-ǝɥʇ-ǝʌɐS.html​/../../../. You can also check out their GitHub repository at https://github.com/saveweb.

Save The Web Project

17 Nov, 19:39


STWP 2024 第 46 周周报

> 项目缺人,帮帮我们!呜呜~

- 我们向 CloudFlare 申请 wikiteam3 成为 verified bots,希望申请能过。祝我们好运!
- 982263/6186010 (即15.87%),这是 AcFun ~2019-3-14 前的视频的存活率。

Save The Web Project

11 Nov, 09:06


STWP 2024 第 45 周周报

本周新闻:
- IA S3 本周基本恢复了,现在只允许 https 访问。

倒闭观察:
- Hertown 社区停运,定于 2025-1-5 完全关闭服务。
- mangaz.com 月初被信用卡公司取消支付服务合同,预计于 2024-11-26 12:00 (UTC+9) 关闭,站方称仍在寻求重启网站的办法。[link]

STWP 本周趣闻:
- 4号上午我们手动删库并回滚了一个 mongodb 数据库,意外发现 mongodb replicat 貌似会重用 oplog 中的已被删除的文档数据来减少大量流量消耗。[link]
- AcFun 前 1,416,060 个 avid 中,只有 0.26% (3795个) 的视频目前还活着。

Save The Web Project

06 Nov, 14:26


pip(x) install git+https://git.saveweb.org/saveweb/[email protected]
aixifan_videoinfo


🧐长期,不紧急,最近没啥事,发出来大家可以跑着玩。

Save The Web Project

03 Nov, 20:11


STWP 2024 第 44 周周报

本周也无事🥲(此消息无声发送)

Save The Web Project

21 Oct, 10:08


ichouti.cn
抽屉居然打赢复活赛了

Save The Web Project

20 Oct, 13:53


这么酷炫一定要发出来。

@gledos_green 给 search.saveweb.org 画了个动态 icon 。

Save The Web Project

19 Oct, 19:52


STWP 2024 第 42 周周报

本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?

STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler

STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。

本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。
- @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。

#STWP

Save The Web Project

10 Oct, 07:51


你们刚在说什么呢。现在显示器不是都支持800*600了吗,640*480是上个世纪的东西了🤪

Save The Web Project

02 Oct, 18:35


(`・ω・´)

Save The Web Project

01 Oct, 08:37


曲奇云盘于9月30日停服。用户需尽快下载数据。

https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw

#新闻 #曲奇云盘
Announce Cookie Down When September Ends

Save The Web Project

28 Sep, 14:41


https://t.me/blogrsslist/403

今年份的 opml 已发布。

Save The Web Project

25 Sep, 08:06


cache: 我寄了。

Save The Web Project

11 Sep, 20:52


Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。

https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/

似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。

目前 cache: 运算符依然有效。

#Google #Wayback

Save The Web Project

09 Sep, 10:35


hedgedoc 的 demo 实例 2024 年 06 月左右由于被滥用,停止了服务并将旧有数据存档到了 https://demo-archive.hedgedoc.org (存档站预计将在 2025年初关闭)。

https://community.hedgedoc.org/t/status-of-the-demo-instance/1634

如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息

Save The Web Project

15 Aug, 15:00


MFM-HD 512K SSD

Save The Web Project

15 Aug, 12:10


Live stream finished (1 hour)