llama.cpp를 활용한 HuggingFace 모델 서빙 가이드
회사 프로젝트로 진행 중인 LLM을 팀원들과 함께 테스트하고 피드백을 받기 위해 llama.cpp를 도입하게 되었습니다. HuggingFace에서 파인튜닝한 모델을 GGUF 파일로 변환한 후 서버에 배포하는 과정에서 겪었던 시행착오를 정리해보았습니다. 1. 저장소 클론 가장 먼...
회사 프로젝트로 진행 중인 LLM을 팀원들과 함께 테스트하고 피드백을 받기 위해 llama.cpp를 도입하게 되었습니다. HuggingFace에서 파인튜닝한 모델을 GGUF 파일로 변환한 후 서버에 배포하는 과정에서 겪었던 시행착오를 정리해보았습니다. 1. 저장소 클론 가장 먼...
지난 블로그 자동포스팅에 이어 디지털 노마드의 삶을 살기위해 오늘도 새로운걸 가져왔다.. 요즘 유튜브 보면 과일 자르는 ASMR로 인기가 많은데 이런 영상은 어떻게 만들고 자동으로 업로드 하는지를 포스팅해보겠다! Veo3 API Veo3는 구글에서 만든 영상모델이다. 영상에 더해...
요즘 인스타그램에 블로그 자동화로 월 몇백씩 번다는 광고가 수도 없이 많이 보여서 직접 돈주고 강의 듣기는 싫고 해서 대충 심심풀이로 자동화 포스팅 하는 코드를 만들었다!! requests 란? Python에서 HTTP 요청을 간편하게 보낼 수 있게 해주는 라이브러리 이다. 웹...
본 포스팅은 지금 하고 있는 연구가 Sentence_transformers 라이브러리의 모델에서 cross-attention을 사용할 수 없어서 transformers 라이브러리의 모델로 변환하는 과정을 담고 있습니다. 도움이 되셨으면 좋겠습니다. ㅎㅎ.. 모델과 토크나이저 로드...
Introduction Dense representation만을 이용해서 Retrieval을 구현함 1) 기존에는 Sparse representation을 사용해서 retrieval을 수행(TF-IDF, BM25) 2) Q: Who is the bad guy in l...