Hacker News 每日播报

一个基于 AI 的 Hacker News 中文播客项目,每天自动抓取 Hacker News 热门文章,通过 AI 生成中文总结并转换为播客内容。

语音使用 Minimax Audio 生成。 Minimax Audio:让文字栩栩如“声”。

Hacker News 每日播报:今天,我们将深入探讨从网络韧性到物理学前沿,从医疗突破到编程幽默,以及科技如何改变人生的多个精彩话题。

建立你的互联网韧性俱乐部

面对日益增长的地缘政治、战争和气候变化带来的风险,互联网中断的可能性正在增加。政府和企业在为此做准备方面行动迟缓,因此,作者 Valerie Aurora 提出了一种由技术专家组成的志愿者团体——互联网韧性俱乐部(Internet Resiliency Club, IRC)——作为一种草根解决方案,用于在危机发生时提供基础通信能力,并协助恢复互联网连接。

文章详细阐述了这一想法的动机和实现方式,灵感来源于乌克兰互联网运营商在战争中积累的网络韧性经验。作者认为,个人和小型志愿者团体可以在危机发生时迅速行动,提供关键的初始领导力。实现这一目标的技术方案是利用 LoRa (Long Range) 无线电和开源的 Meshtastic 软件。LoRa 是一种低功耗、无需许可、价格便宜的无线电技术,可以在几公里范围内传输少量数据。Meshtastic 固件则利用 LoRa 构建了一个泛洪转发(flood-forward)的网状网络,允许用户发送文本消息,无需任何中心化基础设施。这与业余无线电(Ham Radio)相比,门槛更低,更易于普及。文章还提供了一个快速启动指南,包括召集技术人员、购买设备、安装固件、选择频道以及定期练习。

关于这项倡议,大家普遍表现出浓厚的兴趣,但也引发了多角度的讨论和一些质疑。一个主要的讨论点集中在 Meshtastic 的实际可用性和易用性上。一些用户分享了他们的使用经验,指出 Meshtastic 在没有互联网的环境下设置可能不够方便,例如固件刷写和文档获取依赖网络。他们认为,一个为紧急情况设计的系统应该更加“本地优先”(local-first),即使在完全离线状态下也能完成设置和查阅资料。不过,也有用户反驳说,Meshtastic 提供了多种离线刷写方法,并且文档和客户端 APK 可以在 GitHub 上下载。

关于 Meshtastic 的实际性能,也存在不同看法。一些用户报告在城市环境中或节点数量较多时,Meshtastic 的表现并不理想,存在信号衰减快、网状网络性能不佳等问题。他们认为,Meshtastic 在紧急情况下可能并不可靠。另一些用户则认为,Meshtastic 的性能很大程度上取决于规划,例如在高处设置“路由器”节点可以显著改善覆盖范围。

除了技术细节,讨论也延伸到了更广泛的韧性话题。最近西班牙和葡萄牙的停电事件被多次提及,许多人强调了长时间停电带来的严重后果,远不止是无法上网,还包括加油站无法工作、电梯困人、食物变质、支付系统瘫痪、医疗设备失效、供水和污水处理中断等,这些都可能迅速导致危机。这凸显了现代社会对电力和通信基础设施的脆弱依赖。关于个人和社会的准备,也有争论,例如是否应该要求加油站配备发电机,以及个人是否应该为罕见的区域性停电做大规模准备。

Android 公共 API 中的笑话与幽默

今天,我们来一窥全球最大的软件项目之一——Android 操作系统——的幕后。ROllerozxa 在 Hacker News 上分享的一篇文章,揭示了 Android 公共 API 中意想不到的笑话和幽默元素。

文章《Jokes and Humour in the Public Android API》带我们领略了 Android 开发者们俏皮的一面,这些幽默不仅体现在用户可见的彩蛋中,也直接嵌入在开发者构建应用时会接触到的 API 元素里。文章列举了多个例子,例如 ActivityManager.isUserAMonkey(),这个方法虽然名字有趣,但实际上用于检测开发者工具“UI Exerciser Monkey”是否正在运行,其背后还有一段因 Monkey 测试意外拨打紧急服务而添加此方法的历史。另一个例子是 UserManager.isUserAGoat(),最初只是一个玩笑,后来曾用于检测游戏《Goat Simulator》是否安装,但在 Android 11 中又因“山羊隐私”的幽默理由被改回始终返回 false。

幽默不仅限于方法名,常量 UserManager.DISALLOW_FUN 也是一个真实的设备策略,其文档风趣地写道,它是为了“阻止用户体验娱乐或快乐”。此外,还有 Chronometer.isTheFinalCountdown()(会播放歌曲《The Final Countdown》的音乐视频)、PackageManager.FEATURE_TOUCHSCREEN_MULTITOUCH_JAZZHAND(引用“爵士手势”表示五指多点触控)、以及 Log.wtf()(“What a Terrible Failure”的缩写,用于记录不应发生的情况)。API 中还散布着流行文化引用,如 SensorManager 中废弃的 SENSOR_TRICORDER(来自《星际迷航》)和引力常量 GRAVITY_DEATH_STAR_I(来自《星球大战》)。

对于这种在技术代码库中加入幽默的做法,社区讨论呈现出两极分化的观点。许多人对此表示赞赏,认为这提醒了大家软件是由人类构建的,一点个性可以使枯燥的代码世界更具吸引力。他们分享了其他系统中的类似例子,并认为这种幽默是团队文化积极的体现。

然而,也有相当一部分人强烈反对在公共 API 和代码中加入幽默。他们认为,在调试关键问题时,遇到一个玩笑名称或信息毫无帮助,甚至会令人沮丧。特别是对于非英语母语的开发者,文化引用和双关语可能完全无法理解或被误解,导致时间浪费。大家还指出,看似无害的幽默可能带来意想不到的后果,例如 isUserAGoat 曾无意中创建了一个隐私漏洞。这种讨论也延伸到对现代大型企业代码库中幽默减少的看法,这通常被归因于“专业化”和全球化团队对清晰度的需求。

SSL 为何在 90 年代末更名为 TLS (2014)

今天我们要聊的话题是关于互联网安全基石之一,SSL 协议为何在 90 年代末更名为 TLS。这篇来自 Tim Dierks(TLS 1.0 规范的编辑之一)在 2014 年的博客文章,为我们揭示了这场技术演进背后,一段充满竞争与妥协的历史。

文章开篇就将我们带回了 90 年代中期那场硝烟弥漫的浏览器大战,Netscape 和 Microsoft 之间的竞争异常激烈。Netscape 是 SSL 协议的开发者,最初的版本 SSL 1.0 存在加密缺陷并未发布,第一个投入生产使用的是 SSL 2.0。虽然 SSL 2.0 运行了一段时间,但它在加密和实际应用中都存在一些不足,需要改进。在这场竞争中,Microsoft 基于 SSL 2.0 开发了自己的协议 PCT,并只在 IE 浏览器和 IIS 服务器中支持,试图建立自己的标准。Netscape 自然不甘示弱,为了解决 SSL 2.0 的问题并保持在标准制定上的主导权,他们开发了 SSL 3.0。

业界许多人士不希望看到协议分裂,于是,包括 Tim Dierks 在内的多方促成了一场 Netscape 和 Microsoft 代表的会议。经过一番“讨价还价”,双方达成协议:将协议的标准化工作交给 IETF(互联网工程任务组)进行开放式流程。作为协议的一部分,为了避免看起来像是直接采纳 Netscape 的 SSL 3.0,IETF 对 SSL 3.0 进行了一些修改,并将其重新命名为 TLS 1.0。Tim Dierks 提到,TLS 1.0 本质上就是 SSL 3.1。

对于这篇文章,大家不仅补充了更多技术细节,也对协议演进、标准化过程以及命名问题展开了多角度的探讨。关于协议版本和差异,有用户指出,文章作者 Tim Dierks 本人进一步澄清了各版本间的关系:SSLv2 是第一个广泛部署版,SSLv3 是一个几乎全新的协议,而 TLS 1.0 确实与 SSLv3 非常相似,只是在 IETF 标准化过程中做了小修改。但随后的 TLS 1.1、1.2、1.3 则是为了应对密码学进展和解决问题而进行的重大或中等程度的修订,特别是 TLS 1.3,被认为是与 TLS 1.2 之前版本差异较大的新协议。

大家还深入讨论了协议版本协商的必要性及其带来的挑战。虽然自动版本协商允许客户端和服务器独立升级而不断开连接,但这也导致了长达数十年的各种降级攻击(downgrade attacks)。攻击者可以在握手过程中干扰通信,使得客户端和服务器协商使用较旧、不安全的协议版本或加密套件。有用户解释说,这些攻击并非 TLS 协议协商本身的固有缺陷,更多是由于客户端在连接失败时尝试使用旧版本作为回退机制,以及一些中间设备(middleboxes)的干扰。TLS 1.3 在设计上特别努力地解决了这些降级攻击问题。

命名问题本身也引发了一些讨论。尽管技术人员知道 SSL 和 TLS 的区别,但对于普通用户甚至一些开发者来说,两者常常混用,或者认为它们是同一个东西的不同版本。有人认为,这种混淆是可以理解的,就像人们仍然说“Twitter”而不是“X”一样,习惯的力量很大。也有人坚持认为,区分 SSL(指代旧的、不安全的协议版本)和 TLS(指代现代协议)非常重要,尤其是在讨论安全性时。

Twin – 一个文本模式窗口环境

今天我们要聊的项目是来自 GitHub 上的一个开源项目,名为“Twin – A Textmode WINdow Environment”。Twin,顾名思义,是一个基于文本模式的窗口环境。它的核心目标是在字符终端上提供一个类似图形界面的多窗口体验,包括鼠标支持、窗口管理器和终端模拟器。项目 README 将其描述为一个“复古”程序,特别适用于嵌入式或远程系统,同时也能作为 X11 的一个多窗口终端,或者说是文本模式下的 VNC 服务器。

Twin 的主要特点在于它能够在多种显示环境下工作:既可以直接在 Linux 控制台或任何兼容 termcap/ncurses 的终端上运行,也能在 X11 环境下作为功能更丰富的 xterm 使用,甚至可以在另一个 Twin 实例中运行,或者通过其网络客户端 twdisplay 实现显示器的动态连接和分离。这使得它在资源受限或需要远程访问的场景下具有独特的优势。项目支持多种架构的 Linux、Mac OS X 和 FreeBSD。从项目的提交历史来看,它是一个持续维护的项目,最近的提交日期显示在 2025 年。

对于这个项目,大家普遍表现出怀旧情绪,许多用户立刻联想到了 DOS 时代或早期 Linux 环境下的类似文本模式界面,比如 DESQview、IBM TopView、AlphaWindows,以及 Borland 的 Turbo Vision。这种对比突显了 Twin 的“复古”特性,也引发了关于这些老系统在当时如何提供多任务和窗口体验的回忆。一些用户分享了他们当年在配置较低的机器上使用 DESQview 或 Twin 的经历,称其为一种“超能力”。

讨论也深入到了技术细节。一个重要的议题是 Unicode 支持。有用户询问 Twin 是否支持 Unicode,随后有其他用户和项目作者本人参与讨论。作者确认 Twin 在 2015-2016 年间逐步添加了 Unicode 支持,内部使用 UTF-32,终端模拟器接受 UTF-8 输入。然而,作者也坦承目前仍缺少对复杂特性如字形簇(grapheme clusters)、全角字符(fullwidth)和从右到左文本(right-to-left)的支持。另一个技术焦点是终端颜色支持,特别是 24 位真彩色。有用户指出在不同的终端模拟器中,实现 24 位颜色的控制序列(SGR)存在 ;: 的混用问题,以及检测终端实际支持能力的复杂性。项目作者对此表示了解,并提到正在进行真彩色支持的开发工作。

儿童白血病:一种致命癌症如何变得可以治疗

今天我们要讨论的是一篇来自 Our World in Data 的文章,标题是《儿童白血病:一种致命癌症如何变得可以治疗》。这篇文章的核心主题是儿童白血病治疗在过去几十年里取得的巨大进步。作者指出,在1970年代之前,大多数患有白血病的儿童会很快死亡,五年生存率不到10%。然而,到了今天,在北美和欧洲等富裕国家,大约85%的儿童在诊断后能存活五年以上,许多孩子甚至被治愈。

这种戏剧性的改善并非源于单一的突破,而是一系列持续进步的累积。文章列举了几个关键因素:化疗方案的优化(从单一药物到多阶段联合用药,并根据风险分层定制治疗强度)、诊断工具的进步(如“可测量残留病灶”MRD 检测)、大规模临床协作(通过大型协作组织汇集病例,推广标准化治疗)、基因和分子研究的突破(有助于更精准地进行风险分层和开发靶向药物,如伊马替尼和 CAR-T 细胞疗法),以及更好的支持性护理(血小板输注、广谱抗生素、抗真菌药、抗病毒药以及疫苗的广泛使用,显著降低了治疗期间的并发症和早期死亡率)。

文章总结说,虽然治疗过程依然艰辛,伴随身体和精神上的挑战以及潜在的长期副作用,但儿童白血病已不再是曾经的死亡宣判。大多数孩子得以康复,重返校园,拥有更长寿、更健康的生活。文章最后强调,下一个重大挑战是将这些在高收入国家取得的进展推广到全球,确保每个孩子都能获得及时诊断和治疗。

对于这篇文章,许多人分享了个人或亲友与儿童白血病抗争的故事,印证了文章中提到的巨大进步,同时也提醒我们治疗过程的艰辛和未被治愈的病例。多位用户分享了自己或孩子的白血病经历,讲述了从诊断到康复的旅程,以及治疗对家庭造成的创伤和长期影响。这些故事是文章统计数据背后最真实、最感人的写照。

大家对医学和科学的进步表示由衷的赞叹,认为这是人类共同完成的真正有价值的事情。有用户分享了他父亲作为儿科血液肿瘤医生在1960年代末开始职业生涯,亲历并推动了治愈率从30%提高到80%以上的故事,展现了一代医务工作者的坚持和乐观。大家普遍认为,真正的奇迹在于医学界持续不断地测试、调整和学习的能力,这种积累式的进步模式是拯救更多生命的关键。

大家也深刻讨论了文章结尾提到的挑战,强调了治疗的可及性问题,指出这些先进疗法主要集中在高收入国家,全球推广是下一个重要目标。一些人还对美国国立卫生研究院(NIH)可能面临的预算削减表示担忧,认为这会严重阻碍癌症研究的进展,甚至可能导致生命损失。

引力仅仅是熵的增加吗?一个渺茫的想法再次受到关注

今天我们要聊一个非常引人入胜的物理学话题,它挑战了我们对引力的基本认知。Quanta Magazine 最近刊登了一篇文章,标题是《引力仅仅是熵的增加吗?一个渺茫的想法再次受到关注》。

这篇文章探讨了一个非主流但持续存在的物理学思想:引力可能不是一个基本力,而是从更深层次的、微观物理学的集体行为中涌现出来的现象,特别是与熵(无序度)的增加有关。这就像热力学现象(比如气体膨胀)是从大量分子的随机运动中涌现一样,引力也可能源于某种我们看不见的微观组分的“热力学”行为。

文章首先回顾了引力理论的历史,从牛顿的万有引力定律到爱因斯坦的广义相对论。尽管广义相对论取得了巨大成功,但黑洞中心的奇点以及与量子力学的不兼容性仍然是谜团,这使得物理学家们仍然对引力是否是集体效应的可能性感兴趣。文章的核心是介绍了劳伦斯伯克利国家实验室的理论物理学家 Daniel Carney 及其团队提出的新模型。他们的工作属于“熵力引力”(Entropic Gravity)的范畴,这一想法可以追溯到 Ted Jacobson 在1995年的开创性工作。Jacobson 发现,如果你假设时空具有热力学性质,就可以推导出广义相对论的方程,这表明引力与热力学之间存在深刻联系。

Carney 团队提出了两个具体的模型来展示引力如何从熵的增加中产生:晶格模型和非局域模型。这些模型目前是“特设”(ad hoc)的,需要精细调整参数,而且目前只能重现牛顿引力,而非完整的广义相对论,特别是无法解释黑洞等强引力场的现象。这是该理论的主要弱点。然而,这些新模型的价值在于它们提供了一个具体的“原理证明”,表明从微观集体行为中涌现引力是可能实现的。更重要的是,它们可能带来实验上的可检验性。文章提到,如果引力是熵力,它可能会影响处于量子叠加态的宏观物体,导致其叠加态坍缩。这与一些量子坍缩模型的预测相似,而这些模型目前正通过实验进行检验。

对于这篇文章,大家普遍表现出浓厚的兴趣,讨论呈现了多样化的视角。许多人试图用日常经验来理解熵力引力,最常被提及的是“巴西坚果效应”(Brazil nut effect),即摇晃混合坚果时,大坚果会浮到顶部。然而,也有人立即指出,巴西坚果效应本身就依赖于引力,用它来解释引力存在循环论证的问题。

大家还围绕“熵是否是物理实在”展开了激烈的哲学和概念辩论。一些人认为熵只是人类对系统不完美知识的度量,一个统计概念,而非驱动物理过程的“东西”。他们质疑一个基本力怎么能源于一个“人造”概念。另一些人则反驳说,尽管熵是统计性的,但它确实描述和预测了真实的物理过程(如热传导、扩散),并且可以产生可测量的“熵力”(例如聚合物链的弹性)。他们强调熵是系统微观状态数量的度量,这个数量是客观存在的,不依赖于观察者。

许多人,特别是那些有实验物理背景的,强调了新理论需要做出可检验的新预测的重要性。大家对那些仅仅能“重现”已知物理现象的理论表示怀疑,认为这可能是一种“过拟合”。文章本身提到的通过量子叠加态实验来检验,被认为是该理论最有希望的实验途径之一。

在监狱里开发数据库

这周在 Hacker News 上引起广泛关注的一篇文章是来自 Turso 博客的《在监狱里开发数据库:我是如何走到这一步的,第二部分》。这篇文章由 Preston Thorpe 撰写,分享了他如何在服刑期间,通过不懈努力和对编程的热情,最终获得 Turso 公司软件工程师职位,参与开发数据库的非凡经历。

文章详细阐述了 Preston 的个人旅程。他坦诚地回顾了自己年轻时因毒品相关的错误选择而入狱的经历。然而,在监狱中,一个提供有限互联网接入的大学项目重新点燃了他对编程的热爱。他全身心投入,每天花费超过 15 小时学习和贡献开源项目,很快就超越了课程内容。Preston 的努力得到了回报。他成为缅因州惩教署远程工作项目的首批参与者之一,并成功在一家名为 Unlocked Labs 的初创公司找到了一份软件工程师的工作。

故事的关键转折点出现在他发现 Turso 的 Project Limbo 项目时,这是一个重写 SQLite 的尝试。尽管之前没有关系型数据库经验,但他对存储引擎的兴趣被激发。他投入了巨大的精力,每周花费大约 90 小时在编程和基础设施管理上,深入研究 SQLite 源码、数据库内部原理的学术论文,并积极参与 Turso 的 Discord 社区。他的贡献引起了 Turso 创始人 Glauber 的注意,尽管 Preston 的 GitHub 资料中关于他服刑的信息并不显眼。这次互动随后被 Glauber 在 Twitter 上分享,并被知名技术主播 The Primeagen 在直播中提及,为 Preston 的故事带来了更广泛的关注。

Preston 表示,他为自己能成为努力、决心和纪律如何改变人生的例子感到无比自豪。他感谢缅因州惩教署提供了学习和工作的机会,感谢 Unlocked Labs 在他最困难的时候给予信任,也感谢 Turso 提供了现在这个他几年前无法想象的职位。尽管最近的法庭消息意味着他需要比预期更长的服刑时间(还有 10 个月),但他选择将其视为一个专注于职业发展的宝贵机会。他强调了“公平机会招聘”政策的重要性,以及相信人们值得拥有第二次机会的公司。

对于这篇文章,社区中压倒性的支持和钦佩是主流声音。许多人对 Preston 的毅力、自学能力以及在极端环境下取得的成就表示由衷的敬佩。大家认为这是一个关于救赎、努力和第二次机会的强大故事,非常鼓舞人心。

关于监狱系统和改造的讨论也很多。大家探讨了监狱教育和远程工作项目的重要性,认为这为服刑人员提供了真正改过自新、重返社会并做出贡献的途径。一些人分享了其他类似的成功案例,并呼吁更多机构和公司采纳“公平机会招聘”政策。技术社区的包容性也被提及,许多人赞扬 Turso 团队能够超越背景,只看重个人的能力和贡献。这被视为技术行业应有的开放和包容精神的体现。

DARPA 项目创下电力传输距离新纪录

我们来聊聊 DARPA 最近在无线电力传输领域取得的一项重要进展。这篇来自 DARPA 官网的文章宣布,他们的“持久光学无线能量中继”(Persistent Optical Wireless Energy Relay, POWER)项目在电力传输距离上创造了新的世界纪录。简单来说,他们成功地通过激光束将电能传输到了前所未有的远距离。

这项名为 PRAD(POWER Receiver Array Demo)的测试在新墨西哥州进行,核心成就是在 8.6 公里(约 5.3 英里)的距离上,成功传输了超过 800 瓦的功率,持续了 30 秒。在整个测试活动中,总共传输了超过 1 兆焦耳的能量。文章强调,这一成就“绝对碾压”了此前公开报道的光学电力传输记录。

DARPA 解释了这项研究的军事应用背景:为“边缘”地带(如战场、灾区)提供电力,这些地方传统的能源补给方式往往缓慢、危险且资源密集。无线电力传输有望为平台(比如无人机)提供不受燃料限制的新能力。实现这一突破的关键在于一种新的接收器技术。这种接收器有一个紧凑的入口,激光束进入后,会照射到一个抛物面镜上,然后反射到围绕在内部的数十个光伏电池(也就是太阳能电池)上,将光能转换回电能。这项技术被认为是可扩展的,可以集成到不同的平台中。

值得注意的是,这次测试是在地面进行的,这意味着激光束必须穿过大气层最稠密的部分。DARPA 项目经理 Paul Jaffe 表示,他们故意选择这种方式,以便在“大气效应的最大影响下”进行测试,这使得结果更加令人印象深刻,因为向上或向下传输会容易得多。文章最后还提到了一个有趣的细节:团队用传输来的能量制作了爆米花,以此庆祝并致敬电影《真实天才》(Real Genius)中的经典场景。

对于这项技术,大家表现出了浓厚的兴趣,但也提出了不少尖锐的问题和担忧,尤其是在安全性和实际应用方面。安全担忧是讨论的焦点之一。有用户立刻指出,在公共空间进行这种高功率激光束传输存在巨大风险,担心意外穿越光束可能导致严重伤害甚至死亡,或者光束照射到反光物体可能造成大范围致盲。这引发了关于如何确保安全的讨论。一些人提出了可能的缓解方案,比如通过卫星进行地面-卫星-地面中继,让光束大部分时间穿过真空,减少地面风险。DARPA 项目经理本人也加入了讨论,并分享了一个关于“虚拟围栏”安全演示的链接,表明研究人员正在积极探索安全措施。

效率问题是另一个重要议题。文章提到的 20% 光电转换效率被认为相对较低。大家计算了这意味着大量的能量转化为热量,对于接收端(特别是小型设备如无人机)来说,散热将是一个巨大的挑战。有人将其与 HVDC(高压直流输电)高达 90% 以上的效率对比,认为这项技术在可预见的未来不太可能替代民用电网基础设施。应用场景的讨论集中在军事领域。社区普遍认为,这项技术最直接、最合理的应用是为无人机等军事平台提供持续电力,实现“无限续航”。这符合 DARPA 的项目目标。

无需电池或外部电源的实时 CO2 监测

韩国科学技术院(KAIST)的研究人员带来了一项引人注目的创新:一个无需电池或外部电源的实时二氧化碳(CO2)监测系统。这项技术旨在解决当前 CO2 监测系统在安装和维护上的限制,这些系统通常依赖电池或有线电源。

这项新系统的核心是一个“惯性驱动摩擦纳米发电机(TENG)”。它能够从周围环境中捕获微小的振动能量,例如工业设备或管道产生的振动,并将其转化为电能。具体来说,该系统能从振幅在20-4000微米、频率在0-300赫兹范围内的振动中获取能量。研究团队通过结合弹簧连接的四层 TENGs,成功放大了微小振动并引发共振,在13赫兹、0.56 g加速度的条件下实现了0.5毫瓦的稳定功率输出。产生的电能足以驱动一个 CO2 传感器和一个低功耗蓝牙(BLE)片上系统(SoC),从而实现周期性的 CO2 浓度测量和无线数据传输。

研究人员强调,对于高效的环境监测来说,一个能够持续运行且不受电源限制的系统至关重要。这项自供电技术通过利用环境振动能量,为未来的自供电环境监测平台奠定了基础,可以集成各种传感器。这项研究成果已发表在国际期刊《Nano Energy》上。

在大家的讨论中,这项技术引发了广泛兴趣。一些人对这项利用环境振动发电的想法表示赞赏,称其为“巧妙”。然而,也有人提出了疑问,认为振动发电和 CO2 监测本身并非新技术,好奇这项研究的“重大突破”究竟在哪里。

一个主要讨论点集中在系统测量的准确性上。文章附带的图表显示,TENG 供电单元与传统直流电源供电单元的 CO2 读数存在30-50 ppm的差异。一些用户指出,这种差异实际上在许多现代 CO2 传感器的正常精度范围内(例如,某些传感器精度为±50 ppm)。但也有人担忧,TENG 产生的电压可能不稳定,这可能会影响传感器的准确性。关于这50 ppm差异的意义,大家提到了不同的背景:在室内空气质量监测中,CO2 浓度通常远高于大气水平(可达几百甚至几千 ppm),因此50 ppm的差异相对较小;但在监测大气 CO2 浓度时,50 ppm的差异则相当于过去几十年的全球大气 CO2 增长量,显得更为显著。

关于 CO2 监测的挑战,有用户指出,真正的难点往往在于传感器本身的精度和使用寿命,而非供电问题,特别是化学传感器可能寿命有限。但也有人反驳说,在某些应用场景(如生命支持系统)中,定期更换传感器是可行的。

大型语言模型的化学知识和推理能力与化学家专业知识的对比

本周在 Hacker News 上,一篇来自 Nature Chemistry 的论文引起了广泛讨论,标题是《大型语言模型的化学知识和推理能力与化学家专业知识的对比》。这篇论文深入探讨了当前最先进的 LLM 在化学领域的表现,并将其与人类化学家的专业水平进行了比较。

文章首先指出,大型语言模型(LLMs)在处理人类语言和执行未明确训练的任务方面展现了惊人能力,甚至在医学等领域通过了专业考试。然而,对于 LLM 在化学领域的具体能力,我们缺乏系统的了解。这正是这篇论文的核心目标:建立一个评估框架,系统地衡量 LLM 的化学知识和推理能力。论文作者构建了一个名为 ChemBench 的自动化评估框架,包含超过 2700 个问答对,这些问题涵盖了从普通化学到无机、分析、技术化学等广泛主题,并要求模型具备知识、推理、计算和直觉等多种技能。为了提供人类表现的基线,研究人员还邀请了 19 位化学专家(主要是硕士在读博士生)回答了 ChemBench 的一个精简子集。

研究的主要发现令人瞩目:在 ChemBench-Mini 的总体得分上,表现最好的 LLM(o1-preview)平均得分几乎是表现最好的人类专家的两倍,许多其他模型也超过了人类的平均水平。这似乎表明 LLM 在化学知识和推理方面已经达到了非常高的水平。

然而,深入分析揭示了 LLM 的一些关键局限性。尽管总体得分高,但模型在某些基础任务上表现不佳,并且经常提供过度自信的错误预测。具体来说:模型难以回答需要特定知识的问题,这部分知识可能未被充分包含在训练数据中,或者需要查阅专门的数据库。模型在毒理学、安全性和分析化学等领域得分较低。此外,模型的表现与分子结构的复杂性没有显著关联,这可能意味着模型并非真正理解并推理分子结构,而是依赖于训练数据中相似分子的出现频率。在判断化学化合物的偏好这类需要“直觉”的任务上,模型的表现与随机猜测无异。更令人担忧的是,模型对其答案的置信度估计与实际正确性之间没有可靠的关联,尤其是在回答错误时仍然表现出高置信度。

对于这项研究,大家展开了热烈讨论。多位化学家指出,化学研究和实践不仅仅是书本知识和推理,更包含大量的“活生生的经验”和“直觉”,这些来自实验室操作、观察现象以及处理意外情况的能力。这种经验很难通过文本数据完全捕捉和训练,可能是 LLM 在某些实际问题上表现不佳的原因。有人认为,这可能是一个“文档化”的问题,即很多实际操作和经验没有被写下来。

大家还将 LLM 在化学领域的表现与编程领域进行对比。有人认为 LLM 在编程上“遥遥领先”,因为编程完全存在于数字世界,数据易于获取和训练。但也有人反驳说,LLM 在编程中同样存在幻觉、犯低级错误和过度自信的问题,尤其是在处理一些不常见或细微的概念时。这场辩论反映了对 LLM 当前能力的不同看法,以及它们是否真正“理解”所处理的信息。

一些人对论文中人类专家的样本提出了质疑,认为主要由硕士在读博士生组成的 19 人样本,且经验相对有限,可能不足以代表化学领域的“专家”水平,尤其是在跨越不同化学子领域的问题上。将 LLM 的广度与人类专家的深度进行简单平均比较可能不够公平。