当前模型智能的提升已经形成预训练+后训练的范式,而其中,预训练是模型最核心能力建立的阶段。AI Box课题组致力于提升模型智能水平,在预训练方面,本课题组的研究方向包括:下一代模型架构(MoE/记忆增强模型, 线性注意力/稀疏注意力, 位置编码, 长文本)、高效预训练算法(低精度训练,训练/推理效率优化,面向模型架构创新的算子研发,高效优化器)、训练动力学研究(表示坍塌,稳定训练,稀疏性研究)、预训练数据(合成数据,数据课程,数据过滤,复杂指令遵循,数据风格)等。
AI Box的多模态大模型研究方向主要集中在将不同类型的数据(文本、图像、视频)兼容到大语言模型中,实现跨模态的理解。我们的研究旨在突破传统的单一模态处理能力,推动人工智能向更复杂的感知和推理能力迈进。具体来说,AI Box 在多模态大模型方面的主要研究方向包括:视觉指令微调(指令数据合成、选择)、图文复杂推理(多模态知识推理、数学推理)、长视频理解(视频大模型的训练、评测)、多模态对齐(幻象、安全性)等。
AI Box团队就大模型复杂推理增强进行了系列探索——STILL: Slow Thinking with LLM、OlymMath、Virgo等。团队秉持开源共享理念,贡献了相关训练数据、代码、脚本等。STILL系列从测试(蒙特卡洛搜索)、训练(SFT和RL)、外部工具(Code和RAG)利用等多个方面探索了复杂推理增强的可行路径,从2024年11月(STILL-1)至今收获GitHub star数600+。具体来说,AIBox在复杂推理的研究方向主要包括:文本复杂推理(数学、代码等)、强化学习算法、长链推理加速、环境交互的复杂推理(智能体、工具调用)、慢思考模型的效率提升/快慢思考切换等。
AI Box的信息检索和推荐系统研究方向主要集中在信息检索系统全流程优化,包括召回、精排、检索增强生成,以及基于搜索智能体的复杂信息获取,尤其关注基于大语言模型的信息检索。此外,我们还关注推荐系统在多场景中的应用,包括生成式推荐,对话式推荐,CTR推荐,以及基于大语言模型的推荐系统。我们的研究旨在探索更先进的信息检索方案,更个性化的推荐系统模型,从而更精准地解决用户信息需求,更全面地理解用户偏好信息。具体来说,AI Box在信息检索和推荐系统的主要研究方向包括:高效信息检索系统(稠密检索、生成式检索、重排序、模型泛化)、检索增强生成(搜索智能体、外部知识利用、开放域问答)、高效推荐系统(序列推荐、CTR预估、跨域推荐、多模态推荐)、基于生成式模型的推荐系统(生成式推荐、大语言模型推荐、对话式推荐)等。
AI Box的大模型利用与微调研究方向主要集中在如何更好地提升大模型在下游任务中的适应能力。我们的研究目标是通过高效的策略提升任务适配能力,并探索轻量化部署的解决方案。我们采用提示工程和智能体技术,帮助模型在任务中充分发挥其潜力,并通过可解释性分析深入挖掘模型能力的来源及不足之处。进一步地,针对具体场景,我们通过高效微调和对齐方法,使模型在特定领域实现轻量化和性能提升。AI Box 在大模型利用与微调方面的核心研究方向包括:提示工程(提示优化、上下文学习、思维链提示)、智能体(智能体规划和记忆、多智能体、领域智能体)、可解释性分析(神经元分析、表征分析)、高效微调和对齐(高效训练方法、轻量化微调和对齐、合成数据、领域对齐)等。