
작성자
임소영
학과 또는 소속(회사명)
산업경영공학과
이메일
soyeong@khu.ac.kr
조회수
1
평가(좋아요)수
1
댓글수
0
[문제의식 / 배경]
- 노인층은 건강검진 안내서, 금융 고지서, 통지서 등 복잡한 문서의 내용을 이해하는 데 어려움이 있음
- 법률·건강·금융 용어 난이도, 작은 글씨, 중요 정보 위치 파악의 어려움
- 실제로 노인복지센터에 가면 할머니 할아버지분들께서 문서를 가져와 이게 뭔지 여쭤보시고 하심
- ChatGPT 등 기존 AI 서비스는 접근성과 UI/UX 측면에서 사용 장벽 존재
[해결방안]
- 이런 문제는 단순히 문서를 요약해서 알려주는 것만으로는 어렵고, 문맥 기반 질의응답, 설명, 해석이 필요함.
- 시선이음은 노인이 문서를 카메라로 찍기만 하면, AI가 내용을 자동으로 쉽게 요약/설명해주며 음성으로 읽어줌. 노인은 음성으로 궁금한 것을 더 질문하고 답변을 들을 수 있음.
[주요기능 / 사용 기술]
- LLM 기반 질의응답 시스템 구현: Qwen2.5-VL 모델과 LangChain, LangServe를 활용해 이미지 기반 질의응답·설명 기능 개발
- VLM Prompt Engineering(CoT, CoD, ToT, ICL 등), LLM as Judgement 및 Multi Agent as Judge를 통한 성능 평가
- RAG 파이프라인 구축: 이미지·대화 기록을 VectorDB(FAISS)에 저장하고, 재질문 시 컨텍스트 기반 답변 제공
- STT/TTS 연동: 음성 질문(STT)과 설명 음성 변환(TTS) API 연동, 노인 친화적 말투·속도 적용
- GPU 서버 환경 구축 및 최적화: Naver Cloud GPU 서버(L4)에서 Qwen2.5-VL 추론 환경 구성, FlashAttention 등 성능 최적화 적용
- SFT/DPO LoRA 학습 파이프라인 : 대화 내용에 대한 피드백을 수집하여 일주일 주기로 SFT →DPO LoRA 학습 후 Qwen2.5-VL-7B 모델에 어댑터 장착
[확장 가능성]
1. 가족/보호자와의 연결
- 사용자의 활동 로그(문서 열람, 약 복용 확인, 긴급 상황 알림)를 보호자에게 주기적으로 리포트
- 필요시 즉시 비디오콜/메시지 연결
- 가족의 목소리를 학습한 TTS
- 노인을 위한 심리상담 대화로 연결 가능
2. 시각장애인을 위한 AI 카메라로 확장 가능
- 실시간으로 주변 환경을 카메라로 인식하고 음성 안내(가전제품 사용방법, 상표 읽어주기, 옷 구별하고 매칭하기, 식품 유통기한 및 조리법 읽어주기..)
- 노인층은 건강검진 안내서, 금융 고지서, 통지서 등 복잡한 문서의 내용을 이해하는 데 어려움이 있음
- 법률·건강·금융 용어 난이도, 작은 글씨, 중요 정보 위치 파악의 어려움
- 실제로 노인복지센터에 가면 할머니 할아버지분들께서 문서를 가져와 이게 뭔지 여쭤보시고 하심
- ChatGPT 등 기존 AI 서비스는 접근성과 UI/UX 측면에서 사용 장벽 존재
[해결방안]
- 이런 문제는 단순히 문서를 요약해서 알려주는 것만으로는 어렵고, 문맥 기반 질의응답, 설명, 해석이 필요함.
- 시선이음은 노인이 문서를 카메라로 찍기만 하면, AI가 내용을 자동으로 쉽게 요약/설명해주며 음성으로 읽어줌. 노인은 음성으로 궁금한 것을 더 질문하고 답변을 들을 수 있음.
[주요기능 / 사용 기술]
- LLM 기반 질의응답 시스템 구현: Qwen2.5-VL 모델과 LangChain, LangServe를 활용해 이미지 기반 질의응답·설명 기능 개발
- VLM Prompt Engineering(CoT, CoD, ToT, ICL 등), LLM as Judgement 및 Multi Agent as Judge를 통한 성능 평가
- RAG 파이프라인 구축: 이미지·대화 기록을 VectorDB(FAISS)에 저장하고, 재질문 시 컨텍스트 기반 답변 제공
- STT/TTS 연동: 음성 질문(STT)과 설명 음성 변환(TTS) API 연동, 노인 친화적 말투·속도 적용
- GPU 서버 환경 구축 및 최적화: Naver Cloud GPU 서버(L4)에서 Qwen2.5-VL 추론 환경 구성, FlashAttention 등 성능 최적화 적용
- SFT/DPO LoRA 학습 파이프라인 : 대화 내용에 대한 피드백을 수집하여 일주일 주기로 SFT →DPO LoRA 학습 후 Qwen2.5-VL-7B 모델에 어댑터 장착
[확장 가능성]
1. 가족/보호자와의 연결
- 사용자의 활동 로그(문서 열람, 약 복용 확인, 긴급 상황 알림)를 보호자에게 주기적으로 리포트
- 필요시 즉시 비디오콜/메시지 연결
- 가족의 목소리를 학습한 TTS
- 노인을 위한 심리상담 대화로 연결 가능
2. 시각장애인을 위한 AI 카메라로 확장 가능
- 실시간으로 주변 환경을 카메라로 인식하고 음성 안내(가전제품 사용방법, 상표 읽어주기, 옷 구별하고 매칭하기, 식품 유통기한 및 조리법 읽어주기..)
노인을 위한 AI문서 이해 서비스, 시선이음
조회수
1
평가(좋아요)수
1
댓글수
0
게시 : 2025년 09월 25일
포트폴리오 URL

임소영
산업경영공학과
soyeong@khu.ac.kr
노인을 위한 AI문서 이해 서비스, 시선이음
조회수
1
평가(좋아요)수
1
댓글수
0
게시 : 2025-09-25
교과목 학기
년 학기