JetBrains開源Mellum語言模型，專精程式碼理解與補全任務[轉載自IThome]-技術分享-網頁設計,程式設計,JAVA程式設計,專案開發,網頁設計作品,PHP程式設計-傑立資訊網頁設計公司

文/李建興 | 2025-05-06發表

JetBrains開源其第一個針對程式碼完成任務設計的語言模型Mellum，並已發布於Hugging Face平臺，供研究與開發人員取用。JetBrains稱Mellum為專精模型（Focal Model），其並非試圖涵蓋所有自然語言任務的通用模型，而是聚焦程式碼理解與補全的單一應用場景，藉此在有限參數規模追求最佳的任務適應性與部署效率。

Mellum-4b-base模型具有40億個參數，採用類似LLaMA的架構，支援8,192個token的上下文長度，並經由JetBrains團隊從零開始訓練，而非基於現有開源模型進行微調。其訓練資料總量達4.2兆token，涵蓋如The Stack、StarCoder訓練集、CommitPack與英文維基百科等公開語料，針對Java、Python、C/C++、JavaScript、TypeScript、Go、Kotlin、PHP、Rust等語言進行學習，目的在於提供準確且上下文一致的程式碼完成能力。

JetBrains表示，Mellum設計概念回歸機器學習早期專精模型的想法，強調深度大於廣度，與當前大型語言模型普遍追求多任務通用能力的趨勢有別。在Mellum架構下，模型不僅在訓練資源上更節省，其可部署的彈性也大幅提升，能在如llama.cpp、Ollama等環境本地執行，也可透過vLLM於雲端部署。

在效能表現方面，Mellum-4b-base在JetBrains內部的HumanEval Infilling測試中，單行程式碼完成通過率為66.21％，多行完成為38.5％。此外，在RepoBench與SAFIM等程式碼評測中，Mellum於自身支援的上下文長度範圍，整體效能達到一定的水準。

雖然Mellum在效能上仍不及CodeLlama-13B或DeepSeek-Coder-6.7B等規模較大的模型，但JetBrains強調，Mellum的設計目標並非取代通用語言模型，而是適合研究訓練策略、推論效率與模型專精化之用。

目前公開的Mellum版本為未經下游任務微調的基本模型，但已可支援進一步的監督式微調（SFT）與強化學習（RLHF）流程。JetBrains同時釋出針對Python語言的SFT版本模型，並預告將陸續推出針對其他語言任務的模型變體，對應不同程式語言與開發場景。

智慧財產局 - 智慧財產權e網通線上專利商標申請服務平台

精選專案.網頁設計.RWD響應式網站.行動版網站 / 服務類

網站技術：Javascript

智慧財產局為提供使用者線上申請專利商標，以及商標申請進度查詢等服務，因此特別規劃此系統讓大眾更為便利，包含的業務申請、繳費、查詢到線上協助等眾多智慧財產權相關的服務內容。

朱宗慶打擊樂就愛音樂課程教學平台

網頁設計.RWD響應式網站.企業形象網站 / 教育人文類

網站技術：PHP . Javascript/MySql

當學員完成課程，後續可以登入網站選擇自己的班級與課程再做複習或是進行親子互動。網站也會定期更新課程、相關商品與最新消息。會員的申請方式需要學員並購買課程，由課程老師建立資料後就可以登入網站練習喔!

JetBrains開源Mellum語言模型，專精程式碼理解與補全任務[轉載自IThome]

智慧財產局 - 智慧財產權e網通 線上專利商標申請服務平台

Dotec Needle Co., Ltd.(多特針業有限公司)

朱宗慶打擊樂 就愛音樂 課程教學平台

智慧財產局 - 智慧財產權e網通線上專利商標申請服務平台

朱宗慶打擊樂就愛音樂課程教學平台