YAN's Blog

Attention and Transformer model

Posted on 2022-10-27 Edited on 2026-04-22 In NLP Symbols count in article: 21k Reading time ≈ 20 mins.

斯坦福cs231n最新的课程中包含了attention的模型讲解，但是很可惜我们现在只能看到17年的老课程，在youtube上可以找到，课程主页是cs231n。可以在课程主页中下载对应的slides和查看推荐的blog，都是学习attention机制的好教材。另外我在学习cs231n课程过程中，也参考了吴恩达对于sequence model的讲解，它课程中也涉及到了attention机制，课后作业也包含了简单的attention机制的实现，可以作为辅助理解来看。这篇博客权当自己学习attention以及由此创造的attention系列模型比如transformer的记录。cs231n推荐的博客内容也是很通俗易懂，英文不好的同学有中文翻译可以参考。

RAG Enhancement(提高基于RAG的问答系统中回答质量的方法论述)

Posted on 2025-05-08 Edited on 2026-04-22 In NLP Symbols count in article: 3.7k Reading time ≈ 3 mins.

去年一整年都在做一套基于RAG的问答系统，项目处理的文档主要为PDF以及中英文混杂，为了提高问答的准确性，期间我也在很多点上进行了思考，很多想法来源于这篇review paper中对于RAG enhancement方法的整理，在去年一年，我写了关于PDF的process和chunk的文章，实际应用时，我们发现文档如何切分地更好确实非常影响后续RAG回答的准确性和用户对于问答的满意度。期间也写了一篇关于RAG performance evaluation的总结，这在产业落地的过程中尤其关键，如果提供一个让顾客满意，同时兼顾算法侧科学性和数学性的要求，也是一个值得深究的topic。今天单开一篇文章，主要聚焦于：当你已经基于市面上已有架构，诸如langchain，llamaindex等高代码架构还是诸如coze，百炼，Dify等低代码架构搭建了一个知识库问答系统，还可以从哪一些方面提高问答的准确性。

先说一个RAG的种类，我们目前接触的比较多的是典型架构：

Novel view synthesis(NVS)

Posted on 2025-01-09 Edited on 2026-04-22 In cv Symbols count in article: 13k Reading time ≈ 12 mins.

New Topic For Me to explore! 对我来说正式开启3D Image~

首先我是看了两篇review了解了这个topic的主要任务：

advancements in radiance field techniques for volumetric video generation: a technical overview
From Capture to Display: A Survey on Volumetric Video

另外同步阅读了huggingface的tutorial：https://huggingface.co/learn/computer-vision-course/unit8/3d-vision/nvs 。这篇博客将NVS描述为这样一个任务：

generate views from new camera angles that are plausibly consistent with a set of images.

我们在对一个场景进行3D还原时，首先的输入是一系列相机在不同的视角拍摄的静态图片，通过这些图片我们对该场景下的人物以及物体进行3D建模，但相机个数是有限的，如何推算出某个没有相机的角度上的view，这就是NVS这个任务要做的事情。

很多方法在这个topic上提出来，大致可以分成两类：1）generate an intermediate three-dimensional representation, which is rendered from a new viewing direction. 比如PixelNeFRF 2）direclty generated new views without an intermediate 3D representaion，比如Zero123

2025.6.24 补充

对于该领域的scene的生成，24年google的4D Gaussian Splatting提出后，把NVS分为两部分，一部分是以Nerf和3DGS为代表的基于静态图片生成3D场景，另外一部分是dynamic scenes，这里的dynamic指的是与3DGS处理的某一时刻的scene不同，这里要处理的数据加入了时序特征，场景中有动态的物体或者人，比如行人或者行驶的车辆。4DGS在一定程度上解决了真正的real-time的问题。