whichllm - 내 PC에서 돌아가는 최고의 AI 모델을 1초만에 찾아주는 도구!

요즘 AI 붐이 대단하죠?
ChatGPT, Claude, Gemini...
클라우드 AI는 편하지만, 인터넷 없이 쓰거나, 개인 정보를 지키면서 쓰려면 역시 로컬 LLM 이 답입니다!
그런데 문제가 있어요.
"내 GPU로 어떤 모델이 돌아가지?", "VRAM이 8GB인데 뭘 써야 하지?"
이런 고민, 다들 한 번쯤 해보셨을 거예요.
그 고민을 단 한 줄의 명령어로 해결해주는 도구가 있습니다!
바로 whichllm 입니다!
whichllm 이란?
whichllm은 내 컴퓨터의 GPU, CPU, RAM을 자동으로 분석해서...
지금 내 하드웨어에서 실제로 돌아가는 최적의 AI 모델 목록을 순위별로 보여주는 CLI 도구입니다.
GitHub 주소 : https://github.com/Andyyyy64/whichllm
그냥 터미널에서 `whichllm` 딱 한 번만 치면?
"이 모델은 됩니다, 이건 VRAM이 부족해서 안 됩니다" 를 바로 알 수 있어요!
거기다 모델을 바로 다운로드해서 채팅까지 할 수 있습니다.
정말 편하죠?
왜 whichllm 이 필요할까요?
로컬 AI 모델을 쓰려면 보통 이런 과정을 거쳐야 해요.
- HuggingFace에서 모델 목록 검색
- 내 GPU VRAM으로 돌아가는지 수동 계산
- 모델 다운로드 (수 GB!)
- 실제로 실행해보면... 메모리 부족 오류... ㅠㅠ
이걸 whichllm이 한 번에 해결해줍니다!
직접 계산하고, 직접 찾아보고, 실패하는 고생을 더 이상 안 해도 되는 거죠!
주요 기능 살펴보기
1) 하드웨어 자동 감지
NVIDIA, AMD, Apple Silicon(M1/M2/M3), CPU 전용 환경까지
내 컴퓨터 사양을 알아서 다 감지합니다.
2) 스마트 랭킹
VRAM 여유, 처리 속도, 벤치마크 점수를 종합해서
"이 컴퓨터엔 이 모델이 제일 좋아요!"를 알려줍니다.
3) 원클릭 채팅
모델 이름을 몰라도 됩니다!
`whichllm run` 하면 내 하드웨어에 맞는 최고 모델을 자동으로 골라서 채팅까지 실행해줘요.
4) Python 코드 자동 생성
`whichllm snippet "모델이름"` 하면 바로 붙여넣을 수 있는 Python 코드가 뚝딱!
개발자라면 정말 편하게 활용할 수 있습니다.
5) 용도별 필터
일반 대화용, 코딩용, 수학용, 비전(이미지)용 모델을 따로 골라볼 수도 있어요.
6) 실시간 데이터
HuggingFace에서 최신 모델 정보를 실시간으로 가져오기 때문에
항상 최신 모델을 기준으로 추천을 받을 수 있습니다.
설치 방법 (초간단!)
Python 3.11 이상이 설치되어 있으면 됩니다.
1) 가장 권장하는 방법은 pipx 설치입니다.
pipx install whichllm
2) Homebrew(Mac)를 쓴다면 이렇게도 됩니다.
brew tap Andyyyy64/whichllm
brew install whichllm
3) pip로 설치하고 싶다면?
pip install whichllm
설치가 끝나면 그냥 터미널에 `whichllm` 을 치면 됩니다!
정말 간단하죠?
실제 사용법
1) 기본 사용 - 내 하드웨어에 맞는 모델 추천
whichllm
이 한 줄이면 내 컴퓨터에서 돌아가는 모델 순위표가 주루룩 나와요!
2) 다른 GPU로 미리 테스트 (구매 전 시뮬레이션!)
whichllm --gpu "RTX 4090"
RTX 4090을 살까 고민 중이라면? 미리 어떤 모델이 되는지 확인할 수 있어요!
3) 바로 채팅하기
whichllm run
최고의 모델을 자동으로 골라서 다운로드 후 채팅을 시작합니다.
특정 모델로 채팅하고 싶다면?
whichllm run "qwen 2.5 1.5b gguf"
4) Python 코드 스니펫 받기
whichllm snippet "qwen 7b"
바로 복붙해서 쓸 수 있는 Python 코드가 출력됩니다!
5) 내 하드웨어 정보만 확인
whichllm hardware
6) 특정 모델을 쓰려면 GPU가 얼마나 필요한지 역으로 계산!
whichllm plan "llama 3 70b"
"이 모델 쓰려면 VRAM이 얼마나 필요해요?" 를 알려줍니다. 역발상이지만 굉장히 유용해요.
점수 계산 방식은?
whichllm은 모델마다 0~100점 사이의 점수를 매깁니다.
|
항목
|
점수
|
설명
|
|
모델 크기
|
0~40점
|
클수록 성능이 좋은 편
|
|
벤치마크 점수
|
0~10점
|
Arena ELO, LLM 리더보드 기준
|
|
처리 속도
|
0~20점
|
빠를수록 실용적
|
|
공식 여부
|
-5~+5점
|
공식 배포 모델 가산점
|
|
인기도
|
0~3점
|
다운로드 수, 좋아요 수
|
이 점수를 다 합산해서 랭킹을 매겨주니, 그냥 믿고 쓰면 됩니다!
Ollama 연동도 됩니다!
Ollama를 쓰고 있다면 이렇게 조합할 수 있어요.
# 내 하드웨어에 최적인 모델을 올라마로 바로 실행!
whichllm --top 1 --json | jq -r '.models[0].model_id' | xargs ollama run
# 코딩에 최적인 모델을 골라서 실행
whichllm --profile coding --top 1 --json | jq -r '.models[0].model_id' | xargs ollama run
자주 쓴다면 alias로 등록해두면 더 편합니다!
alias bestllm='whichllm --top 1 --json | jq -r ".models[0].model_id"'
# 이후에는: ollama run $(bestllm)
마무리하며...
whichllm은 로컬 AI 입문자부터 개발자까지 모두에게 유용한 도구입니다.
복잡한 설정 없이, 내 컴퓨터 사양에 딱 맞는 AI 모델을 찾아주고,
심지어 채팅까지 바로 연결해주니... 정말 편하죠!
특히 `whichllm plan` 기능은 GPU 구매를 고려 중인 분들한테 정말 추천드려요.
"70B 모델 돌리려면 VRAM이 얼마나 필요한지" 사전에 계산할 수 있으니까요.
로컬 LLM에 입문하고 싶은데 어디서 시작할지 모르겠다면?
whichllm 부터 설치해보세요!
#whichllm #로컬LLM #AI도구 #LocalLLM #HuggingFace #GGUF #Ollama #파이썬CLI #LLM추천 #AI개발 #GPU활용 #llama #qwen #오픈소스AI
'AI & 개발' 카테고리의 다른 글
| Google Stitch 프롬프트 작성법 - 프롬프트 한 줄 차이로 결과물이 달라집니다 (0) | 2026.05.18 |
|---|---|
| AI 코딩 툴 제대로 쓰는 법 - 계획 없이 코드 짜면 망합니다 (0) | 2026.05.15 |
| AI 코딩 도구들의 공통 언어, AGENTS.md 완전정복 (0) | 2026.05.13 |
| Claude Code 5시간 한도 2배 증가 - 앤트로픽 x SpaceX 파트너십 완전 분석 (0) | 2026.05.09 |
| Claude Code로 광고 전문가처럼! - claude-ads 스킬 완벽 정리 (1) | 2026.05.07 |

