概述
大型语言模型(LLM)的推理能力是衡量其智能水平的核心指标。近年来,围绕
LLM
推理能力的优化,研究者们在多个方向上取得了显著进展。本文从运行时推理优化、检索增强生成(RAG)、蒙特卡洛树搜索(MCTS)以及思维链(CoT)合成四个主要方向,系统梳理了
2025 年初 LLM
推理能力的最新研究进展。此外,本文还探讨了当前面临的数据资源挑战以及未来发展的关键方向,包括推理效率优化、模型自主性提升和数据质量控制等。
LLM 推理能力的最新进展。
运行时推理优化
主流方法
Self-consistency (arXiv:2203.11171)
通过生成多条推理路径并采用多数表决机制提升准确性。
Enhanced Self-consistency (arXiv:2501.01668)
基于 CoT 的合成器
利用集成学习从错误 CoT 中提取正确答案
Best of N sampling
(Stiennon et al., 2020; Cobbe et al., 2021; Lightman et al., 2024)
对每个候选响应进行独立评分。
挑战与解决方案
核心挑战
...
展示
(和 GPT)写了个小组件来查关键词在 arxiv 的论文发布趋势,用 ploty.js
写的前端,bs4 写的后端,感觉还行,等个时间整理了传在 github 上。
粗糙源码
前端
React 版本
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102import React from "react";import { Card, CardHeader, CardTitle, CardContent } from "@/components/ui/card";import { LineChart, Line, XAxis, YAxis, CartesianG ...
一个想法
我们正在讨论的是关于图生成网络是否能够应用在化学领域,我的看法是,可以。
第零,诚然,如果我们讨论的是单纯的 An 生成 Bn
的反应,那可能对于复杂反应来说十分困难。主要原因是如果反应的步骤足够的多的话那需要相当大层数的神经网络来实现。
但是我们可以引入多个思路来解决这一切的发生。
第一,我们做的是类似于 transformer
的图生成模型,对于这个模型而言,不需要有太多的生成深入反应产物的能力,反而我们能做的是只要它能够基本的做到能够顺推即可。对应到化学来说,其实就是希望反应能够精细到反应机理的程度,只要一步一步推下去的话就能够出相关的结果。
第二,我们可以参考数学方面的 CoT 思维链的形式做一个
CoCh,这样子的话可能可以起到进一步优化模型的作用。
一些针对这个想法的弥散的思维:
关于数据:化学数据实际上是非常好进行采用的,其本质上在计算机化的过程当中已经被编码成图的形式了,至于关于是否能够获得机理层次的化学反应数据我认为存疑。如果不行的话我们可以通过图像识别的方式简化我们的数据清洗过程。
关于图数据的深入挖掘:我们所获得的训练数据其实不只前两个维度,点和路径, ...
想去海边。
”其实就是想去啦,也没有为什么,出来走一下子多好,后天还得回学校上学……“去往市区的码头上,我对着眼前的婆婆这样子讲。眼前这个看上去在退休年龄边上的老人笑呵呵地操着四川话问我年岁,是从哪来,在哪里上学,后边还想去哪玩。一脸的福态一点没有展现出旅人的疲惫,向我问:”娃啊,你说,哪里能看到一望无际的海啊……“
东岛不过是一个无名的小岛,游人不多,岛上也全是操着客家话和粤语的村民,偶尔拦着你想坐他的小三轮车。彼时你对他们讲你只不过是想要”行街“啦,他们就会放过眼前这个学生打扮的背包客。小岛不大,一路走过去没啥景点,沿着没有人行道的海边公路一路逆行,能走到一个渔家码头,七零八落地绑着被大风天吹得七零八落的行船,从岸边跳上摇摇晃晃立着牌子的“图书馆”,两条船绑在一起便让这文创店初具规模。空调扇止不住地吹着带着异味的风,潮水的声音被古旧的书本稀释了,立架上放着不知从哪里搞来的大型珊瑚石。我靠着台边和小哥谈着珊瑚,风光和村子,周围的游客来来往往,上了船便像潮水般退去。这里卖明信片,却没有邮局,小哥收了我的钱,便把写好的明信片放在了他的麻布口袋里面,收款信息上写着“海上书房”。
穿梭在半大 ...
就像一部彩色的无声电影,掠过高楼内外的光景。
20241015
一场游戏,一场精妙的算计,大型密室逃脱般完整的机关,直愣愣的被梦构建起来。
他,一个游戏的参与者,以迅雷不及掩耳之势,轻松地闯过了前十关,每一关都以三星的成绩完美通关。直到第十一关。这一关的起点设在了电梯的门厅,那里有六部直梯,左边三部贴着绿色的安全标识,而右边三部则没有任何标记。
他的队友在单独尝试时,未曾预料到第十一关的通关条件竟然与十三关的入口有关。他们需要沿着右边第二部直梯一直向上,在某一层切入,解开机关,才能收到第十一层的通关信息。但十三层的门尚未开启,他们需要先去启动十二层的机关。
回到门厅,他们惊讶地发现不知何时多出了一个孩子。孩子的眼神中透露出一种神秘的光芒,似乎在暗示着什么。他们带着孩子一起上了右边第一号直梯,直梯缓缓上升,目标是五楼。然而,当他们到达四楼时,却发现四楼到五楼之间是一面镜子。他们惊讶地穿过了镜子,毫发无损,但双手却变成了镜像。这意味着他们需要重新研究和设计解密时的触摸方案。
终于到达五楼,工作人员和蔼地递给他们棉花糖,仿佛是在庆祝他们的成功。然而,故事在这里戛然而止,留给人们无限的遐想 ...
问题描述
跑神经网络的时候可能会遇到高并发的情况,这种情况下会带来很高的 CPU
负载,系统层面需要调优 CPU 的性能。
查看各 CPU 核心的工作模式可以通过下面这条命令:
1cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
终端打印以下内容:
123456789101112powersavepowersavepowersavepowersavepowersavepowersavepowersavepowersavepowersavepowersavepowersavepowersave
说明 CPU 正在养生...
解决方案
安装 indicator-cpufreq,在图形化顶栏即可调优。
1sudo apt-get install indicator-cpufreq
或使用cpufrequtils:
1sudo apt-get install cpufrequtils
运行下面的修改
12345678cpu_mode=performance# Get the number of CPU corescpu_core ...
minGRU 来源
minGRU 来源于 10/2/2024 Mila
等人提出的Were RNNs All We Needed?一文,下面来浅要阅读和总结一下主要内容也分析一下源码。
Were RNNs All We Needed?
这个“Were”有一点点搞。大有一种江山已逝的美感。
LSTMs 回顾: 长短期记忆网络(Long Short-Term Memory,
LSTM)是一种特殊的循环神经网络(RNN),能够学习长期依赖关系。LSTM
通过引入门控机制来解决传统 RNN 中的梯度消失和梯度爆炸问题。LSTM
的核心是其细胞状态(Cell
State),它通过一系列门控单元来控制信息的流动。LSTM 分为 4 层:
Forget: 遗忘层,使用一个 sigmoid(决定遗忘值)
遗忘层的作用是决定哪些信息需要从细胞状态中遗忘。通过一个 sigmoid
函数,输出一个 0 到 1 之间的值,表示需要遗忘的信息比例。
其中, 是遗忘门的输出, 和
分别是权重矩阵和偏置向量, 是前一时刻的隐藏状态,
是当前输入。
Store: 存储层,一个 sigmoid(决定更新值) ...
起因
AIAA 2205 把作业发在了 Kaggle 上,并且作业计量需要按 Kaggle
的排名积分,于是大家开始内卷抢排名。
题面
给定 mfcc 文件夹,内含约 8000 个 39*999 的 mfcc
矩阵,以.mfcc.csv格式标识,给定labels,test_for_student.label内命名为数个形如HW00002897.mp4的文件名,trainval.csv是形如下面的数据文件。
12345678910111213141516171819Id,CategoryHW00002897,1HW00001276,1HW00000794,1HW00001003,1HW00003647,1HW00001784,1HW00007717,1HW00007694,1HW00001891,1HW00007365,1HW00007926,1HW00001162,1HW00002171,1HW00002795,1HW00005799,1HW00001615,1HW00007024,1HW00003824,1
另附有videos.name.lst一个,这里我估计是助教处理数据的时候 ...
自我介绍
本站是作者的二号机,在初代的基础上作了完全的改换!欢迎留言或者 email
来 cue 落雨杉!
革新
事情的起因是源自于 iGEM
比赛结束之后想追寻自己的向往的个人博客,原准备继续沿袭自己 vitepress
一贯的开发习惯用vitepress-async来建站,但无意中发现了(也许是二次发现)AnZhiYu
这么完备的一个主题,也完全契合我自己需要的低代码书写环境,所以花开了两三个钟的样子调试了一下开始更新上传。
超好看!
超好看布局
整个过程还蛮不顺利,由于我自己 Ubuntu 自带的 npm 是源于 apt
安装的,所以导致了文件错误,使用 nvm 进行包管理之后变得好起来了。
小小期望
其实很久没有长时间的去坚持一件纪录性的事情了,也希望能够日常写写文档和想法把所思所想记录下来,不然的话感觉
时间过得太快而显得毫无意义,先定一个 30 天周更 2
篇的目标,希望能完成!