0%

斯坦福cs231n最新的课程中包含了attention的模型讲解,但是很可惜我们现在只能看到17年的老课程,在youtube上可以找到,课程主页是cs231n。可以在课程主页中下载对应的slides和查看推荐的blog,都是学习attention机制的好教材。另外我在学习cs231n课程过程中,也参考了吴恩达对于sequence model的讲解,它课程中也涉及到了attention机制,课后作业也包含了简单的attention机制的实现,可以作为辅助理解来看。这篇博客权当自己学习attention以及由此创造的attention系列模型比如transformer的记录。cs231n推荐的博客内容也是很通俗易懂,英文不好的同学有中文翻译可以参考。

Read more »

去年一整年都在做一套基于RAG的问答系统,项目处理的文档主要为PDF以及中英文混杂,为了提高问答的准确性,期间我也在很多点上进行了思考,很多想法来源于这篇review paper中对于RAG enhancement方法的整理,在去年一年,我写了关于PDF的process和chunk的文章,实际应用时,我们发现文档如何切分地更好确实非常影响后续RAG回答的准确性和用户对于问答的满意度。期间也写了一篇关于RAG performance evaluation的总结,这在产业落地的过程中尤其关键,如果提供一个让顾客满意,同时兼顾算法侧科学性和数学性的要求,也是一个值得深究的topic。今天单开一篇文章,主要聚焦于:当你已经基于市面上已有架构,诸如langchain,llamaindex等高代码架构还是诸如coze,百炼,Dify等低代码架构 搭建了一个知识库问答系统,还可以从哪一些方面提高问答的准确性。

先说一个RAG的种类,我们目前接触的比较多的是典型架构:

Basic RAG
Read more »

New Topic For Me to explore! 对我来说正式开启3D Image~

首先我是看了两篇review了解了这个topic的主要任务:

另外同步阅读了huggingface的tutorial:https://huggingface.co/learn/computer-vision-course/unit8/3d-vision/nvs 。这篇博客将NVS描述为这样一个任务:

generate views from new camera angles that are plausibly consistent with a set of images.

我们在对一个场景进行3D还原时,首先的输入是一系列相机在不同的视角拍摄的静态图片,通过这些图片我们对该场景下的人物以及物体进行3D建模,但相机个数是有限的,如何推算出某个没有相机的角度上的view,这就是NVS这个任务要做的事情。

很多方法在这个topic上提出来,大致可以分成两类:1)generate an intermediate three-dimensional representation, which is rendered from a new viewing direction. 比如PixelNeFRF 2)direclty generated new views without an intermediate 3D representaion, 比如Zero123

2025.6.24 补充

对于该领域的scene的生成,24年google的4D Gaussian Splatting提出后,把NVS分为两部分,一部分是以Nerf和3DGS为代表的基于静态图片生成3D场景,另外一部分是dynamic scenes,这里的dynamic指的是与3DGS处理的某一时刻的scene不同,这里要处理的数据加入了时序特征,场景中有动态的物体或者人,比如行人或者行驶的车辆。4DGS在一定程度上解决了真正的real-time的问题。

Read more »