LLM
-
RAFT: Adapting Language Model to Domain Specific RAG연구/논문리뷰 2025. 12. 15. 01:38
1. RAFT의 등장 배경대형 언어모델은 일반적인 상식, 요약, 추론에서는 강력한 성능을 보이지만, 실제 도메인 문서 기반의 질문에 대해 안정적으로 답변하는 데에는 한계가 존재한다. 특히 RAG(Retrieval-Augmented Generation) 시스템에서는 검색된 문서가 정답을 포함하지 않거나, 정답과 유사해 보이지만 실제로 무관한 문서가 함께 반환되는 경우가 흔하다.이런 상황에서는 모델이 오답을 생성하거나 불안정한 답변을 내놓기 쉽다.RAFT 는 이 문제를 모델 차원에서 해결하기 위해 고안된 방법이다. 질문과 함께 관련 문서와 비관련 문서가 섞인 문서 집합을 제공하고, 모델이 정답 근거 문서를 구분해 답변을 생성하도록 학습하는 방식이다.RAFT의 핵심은 검색 기반 QA 환경(open-book s..
-
MCP(Model Context Protocol) 란?개발/TIL 2025. 11. 23. 21:23
증권사 AI 리서치 챗봇 PoC를 수행하면서 실무적으로 MCP를 적용해볼 기회가 있었고, 당시 미처 깊게 공부하지 못했던 부분을 다시 정리해보고자 한다.아직 생태계가 빨리 발전하고 있는 기술이지만, LLM 기반 애플리케이션을 구현하는 입장에서 반드시 이해해야 하는 개념이라고 느꼈다. 1. MCP(Model Context Protocol)란 무엇인가?먼저 MCP가 등장한 이유부터 살펴보는 것이 이해에 도움이 된다.기존 LLM 기반 애플리케이션에서는 모델이 외부 도구나 데이터 소스와 상호작용하는 방식이 표준화되어 있지 않았다.그 결과 개발자는 다음과 같은 문제를 반복적으로 겪었다.새로운 툴을 추가할 때마다 Function Calling 스펙을 직접 다시 정의해야 하고,모델(GPT/Claude/오픈소스)마다 ..
-
DSPy(Declarative Self-improving Python) 찍먹해보기개발/TIL 2025. 11. 23. 17:55
최근 LLM 개발 흐름을 보면“프롬프트 엔지니어링 → 파이프라인 설계 → 자동 개선”이라는 방향으로 점점 진화하고 있다.이런 흐름을 대표하는 도구 중 하나가 DSPy(Declarative Self-improving Python) 이다.DSPy는 어떤 프레임워크인가?DSPy는 스탠포드・애플・워싱턴대 연구자들이 함께 개발한 프레임워크로,기본적인 개념과 구조는 아래 논문에서 제시된다.DSPy: Compilers for Self-Improving Systems with Foundation Models(Stanford, 2024)https://arxiv.org/pdf/2310.03714 논문의 핵심 아이디어는 다음과 같다.프롬프트를 “문자열”로 직접 쓰는 방식은 유지보수가 어렵다대신 입력/출력 구조(Signatu..
-
Efficient Reinforcement Learning via Large Language Model-based Search연구/논문리뷰 2024. 12. 14. 16:06
2024년 9월 3일 화요일 리뷰- 개인 연구를 위해 논문을 리뷰한 내용입니다:) (*10월달에 논문제목이 변경되어서 submission되었네요.)https://arxiv.org/abs/2405.15194 Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement LearningReinforcement Learning (RL) suffers from sample inefficiency in sparse reward domains, and the problem is further pronounced in case of stochastic transitions. To improve the sample efficie..
-
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models연구/논문리뷰 2024. 12. 14. 15:54
2024년 8월 27일 화요일 리뷰- 개인 연구를 위해 논문을 리뷰한 내용입니다:) https://arxiv.org/abs/2305.13655 LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language ModelsRecent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those..
-
Reward Design with Language Models연구/논문리뷰 2024. 12. 14. 15:43
2024년 8월 27일 화요일 리뷰- 개인 연구를 위해 논문을 리뷰한 내용입니다:) https://arxiv.org/abs/2303.00001 Reward Design with Language ModelsReward design in reinforcement learning (RL) is challenging since specifying human notions of desired behavior may be difficult via reward functions or require many expert demonstrations. Can we instead cheaply design rewards using a natural language interarxiv.org RL에 있어서 보상함수 구성부분..
-
iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement연구/논문리뷰 2024. 12. 14. 15:34
2024년 8월 13일 화요일 리뷰- 개인 연구를 위해 논문을 리뷰한 내용입니다:) https://arxiv.org/abs/2407.06025 iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvementUrban congestion remains a critical challenge, with traffic signal control (TSC) emerging as a potent solution. TSC is often modeled as a Markov Decision Process problem and then solved using reinforcem..
-
Prompt to Transfer:Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning연구/논문리뷰 2024. 12. 13. 23:03
2024년 7월 30일 화요일 리뷰- 개인 연구를 위해 논문을 리뷰한 내용입니다:) https://arxiv.org/abs/2308.14284 Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt LearningNumerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) m..