Вот что я узнал в процессе:
🔸 1. Плагин для IDE / Специальная IDE
Для того чтобы подключить локальную аишку в vscode вам понадобится плагин который будет генерировать запросы для модели и показывать ее предложения в коде. я выбрал Continue как самое универсальное решение.
🔸 2. Поднять AI сервер
Вам понадобится программа - AI сервер (название сам придумал) которая скачает, запустит модель, поможет ее настроить, поднимет локальный сервер для общения с аишкой по http.
Среди них Ollama, LM Studio, openrouter
🔸 3. Выбрать модель.
Брать лучше модели заточенные под кодинг, такие как OpenCoder, Cline, QwenCoder (накидайте в комментариях если знаете еще) - выбрать и скачать можно будет прямо в интерфейсе вашего AI сервера.
У одной и той же модели есть масса вариантов, давайте разберемся чем они отличаются.
🔹 0.5b / 1.5b / 8b и другие цифры с маленькой b
Это "размер" модели, чем он больше тем тяжелее для вашего пк будет генерировать ответ с ее помощью, но и ответ может быть качественней. Для автокомплита есть смысл брать до 3b
🔹 Q8 / Q4 и другие цифры с большой Q
Это уровень квантования, чем он меньше, тем меньше моделька потребляет памяти, и тем хуже ответ. Если у вас 32 памяти берите Q8, иначе Q4
Чтобы примерно понять как соотносятся b и Q, представьте что мы говорим о кино.
b - это бюджет фильма. Чем он выше тем лучше актерский состав, спецэффекты, костюмы, музыкальное сопровождение и тп.
Q - это качество в котором вы это кино смотрите - Q8 это как 1440p, а Q4 это как 720p. На суть фильма не влияет
🔹Instruct / Base.
Instruct - Это специально проинструктированная и подтюненная аишка под свою задачу (в нашем случае - кодинг)
Base - Это базовая модель, используется как промежуточная для дообучения
🔹GGUF / GPTQ / AWQ - это метод квантования
- GGUF - "Классика", ваш выбор по умолчанию - из плюсов совместимость и стабильность, из минусов - медленная (в сравнении с теми что идут дальше)
- GPTQ - Запускается на GPU, но только на Nvidia, быстрая но в жертву приносится точность. Видюшку желательно иметь с 8GB+ памятью
- AWQ - И быстрая и точная, но только для самых свеженьких Nvidia