LLM 2

LLM - 언어모델 개발을 위한 텍스트 라벨링 데이터셋 구축 가이드

텍스트 라벨링 데이터셋 구축 가이드본 가이드는 글쓴이의 텍스트 라벨링 데이터 10만 건 직접 구축 쌩노가다를 토대로 작성되었습니다. 라벨링 작업은 혼자 하면 품질 보장이 안됩니다. 무조건 2명 이상 쓰세요. 아니 제일 좋은건 그냥 업체 쓰시고 피드백 주는게 제일 편하고 빠릅니다 ㅜㅜ 1. 명확한 라벨링 기준 수립지침 문서 (Guideline) 작성 - 작업자 간 해석 차이를 줄이기 위한 명확한 라벨링 룰 정의예시 포함 - 각 라벨에 대해 긍정/부정/모호한 예시 제시경계 기준 명시 - 어떤 경우는 라벨링하지 말아야 하는지도 명확히 규정2. 라벨링 기준 예시1) 루브릭 기반 평가지표문맥 이해, 표현력, 논리성 등 평가 항목 구성주관적이지만 라벨러 간 일관성 훈련에 유용2) 현대적 기준 (예: Anthropi..

engineering 2025.05.20

LLM - 언어모델 개선을 위한 접근 방법론 이모저모

LLM 개선을 위한 6가지 핵심 전략1. 데이터 품질 및 다양성 확보 고품질 데이터 확보 - 노이즈 적고 다양성 있는 정제된 데이터 사용 데이터 증강(Data Augmentation) - 문장 구조 변형, 동의어 치환 등으로 다양성 강화 도메인별 특화 데이터 수집 - 의료, 법률 등 특정 도메인에 특화된 데이터 추가 확보 노이즈 제거 및 정제 - 오타, 문법 오류, 불필요한 텍스트 제거 2. 모델 아키텍처 및 구조 개선 최신 아키텍처 활용 - GPT-4, PaLM 등 최신 구조 채택 또는 하이브리드 설계 하이퍼파라미터 최적화 - 학습률, 배치 크기, 드롭아웃 등 튜닝 스파스 모델 도입 - 계산 비용을 줄이면서 ..