0%

去年一整年都在做一套基于RAG的问答系统,项目处理的文档主要为PDF以及中英文混杂,为了提高问答的准确性,期间我也在很多点上进行了思考,很多想法来源于这篇review paper中对于RAG enhancement方法的整理,在去年一年,我写了关于PDF的process和chunk的文章,实际应用时,我们发现文档如何切分地更好确实非常影响后续RAG回答的准确性和用户对于问答的满意度。期间也写了一篇关于RAG performance evaluation的总结,这在产业落地的过程中尤其关键,如果提供一个让顾客满意,同时兼顾算法侧科学性和数学性的要求,也是一个值得深究的topic。今天单开一篇文章,主要聚焦于:当你已经基于市面上已有架构,诸如langchain,llamaindex等高代码架构还是诸如coze,百炼,Dify等低代码架构 搭建了一个知识库问答系统,还可以从哪一些方面提高问答的准确性。

先说一个RAG的种类,我们目前接触的比较多的是典型架构:

Basic RAG
Read more »

New Topic For Me to explore! 对我来说正式开启3D Image~

首先我是看了两篇review了解了这个topic的主要任务:

另外同步阅读了huggingface的tutorial:https://huggingface.co/learn/computer-vision-course/unit8/3d-vision/nvs 。这篇博客将NVS描述为这样一个任务:

generate views from new camera angles that are plausibly consistent with a set of images.

我们在对一个场景进行3D还原时,首先的输入是一系列相机在不同的视角拍摄的静态图片,通过这些图片我们对该场景下的人物以及物体进行3D建模,但相机个数是有限的,如何推算出某个没有相机的角度上的view,这就是NVS这个任务要做的事情。

很多方法在这个topic上提出来,大致可以分成两类:1)generate an intermediate three-dimensional representation, which is rendered from a new viewing direction. 比如PixelNeFRF 2)direclty generated new views without an intermediate 3D representaion, 比如Zero123

Read more »

在这个全民皆Difussion Model的时代,已经有人忘却了曾经的王者GAN。这篇博客是自己记录学习生成模型,这里的生成模型仅局限于生成图片的模型,不是LLM这一类自然语言生成模型。启发点有两个: - 在斯坦福cs231n这节课里,GAN这一章节详细讲解了从VAE到GAN的发展脉络,并没有延申到Difussion Model。Difussion Model的内容放到cs236中去讲了。 - Lilian Blog曾写过一篇What are Diffusion Models?, 内扩展了两篇介绍: GAN 和 VAE。

Read more »