王小川的百川智能發(fā)布開源中英文大模型，清華北大率先使用

來源：網(wǎng)絡(luò)轉(zhuǎn)載作者：網(wǎng)易科技報(bào)道時(shí)間：2023-06-15

6月15日消息，王小川新創(chuàng)業(yè)公司百川智能，推出70億參數(shù)量的中英文預(yù)訓(xùn)練大模型——baichuan-7B。

目前這款大模型已在Hugging Face、Github以及Model Scope平臺(tái)發(fā)布。

公司CEO王小川表示：“本次開源模型的發(fā)布是百川智能成立2個(gè)月后的第一個(gè)里程碑，對(duì)百川智能而言是一個(gè)良好的開局。baichuan-7B模型，不僅能為中國的AGI事業(yè)添磚加瓦，也為世界大模型開源社區(qū)貢獻(xiàn)了新的力量?！?/p>

據(jù)了解，baichuan-7B在C-Eval、AGIEval和Gaokao三個(gè)中文評(píng)估基準(zhǔn)進(jìn)行了綜合評(píng)估。

百川智能發(fā)布開源中英文大模型，清華北大率先使用

在中文C-EVAL的評(píng)測中，baichuan-7B的綜合評(píng)分達(dá)到了42.8分，超過了ChatGLM-6B的38.9分。

百川智能發(fā)布開源中英文大模型，清華北大率先使用

C-Eval評(píng)測基準(zhǔn)由上海交通大學(xué)、清華大學(xué)以及愛丁堡大學(xué)聯(lián)合創(chuàng)建，是面向中文語言模型的綜合考試評(píng)測集，覆蓋了52個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。

在AGIEval的評(píng)測里，baichuan-7B綜合評(píng)分達(dá)到34.4分，超過LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。

AGIEval評(píng)測基準(zhǔn)由微軟研究院發(fā)起，旨在全面評(píng)估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)上的能力，包含了中國的高考、司法考試，以及美國的SAT、LSAT、GRE和GMAT等20個(gè)公開且嚴(yán)謹(jǐn)?shù)墓俜饺雽W(xué)和職業(yè)資格考試。

在GAOKAO評(píng)測中，baichuan-7B的綜合評(píng)分達(dá)到了36.2分，領(lǐng)先于同參數(shù)規(guī)模的各種其他預(yù)訓(xùn)練模型。

GAOKAO評(píng)測基準(zhǔn)是復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評(píng)測框架，以中國高考題目作為數(shù)據(jù)集，用于測試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。

此外baichuan-7B在英文上表現(xiàn)同樣亮眼。在MMLU的評(píng)測中baichuan-7B綜合評(píng)分高達(dá)42.5分，領(lǐng)先英文開源預(yù)訓(xùn)練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。

百川智能發(fā)布開源中英文大模型，清華北大率先使用

MMLU由加州大學(xué)伯克利分校等知名高校共同打造，集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目，主要目標(biāo)是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。其內(nèi)容廣泛，從初級(jí)水平一直涵蓋到高級(jí)專業(yè)水平。

百川智能介紹稱，訓(xùn)練語料對(duì)大模型的訓(xùn)練結(jié)果至關(guān)重要。在構(gòu)建預(yù)訓(xùn)練語料庫方面，公司以高質(zhì)量中文語料為基礎(chǔ)，同時(shí)融合了優(yōu)質(zhì)的英文數(shù)據(jù)。在數(shù)據(jù)質(zhì)量方面，通過質(zhì)量模型對(duì)數(shù)據(jù)進(jìn)行打分，對(duì)原始數(shù)據(jù)集進(jìn)行篇章級(jí)和句子級(jí)的精確篩選；在內(nèi)容多樣性方面，利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng)，對(duì)數(shù)據(jù)進(jìn)行了多層次多粒度的聚類，最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型，數(shù)據(jù)量提高了超過50%。

在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上，為了更好地提升訓(xùn)練效率，baichuan-7B深度整合了模型算子來加快計(jì)算流程，并針對(duì)任務(wù)負(fù)載和集群配置，自適應(yīng)優(yōu)化了模型并行策略以及重計(jì)算策略。通過高效的訓(xùn)練過程調(diào)度通信，baichuan-7B成功地實(shí)現(xiàn)了計(jì)算與通信的高效重疊，進(jìn)而達(dá)到了超線性的訓(xùn)練加速，在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的水平。

同時(shí)，已有的開源模型窗口長度在2K以內(nèi)，對(duì)于一些長文本建模任務(wù)，如需要引入外部知識(shí)做搜索增強(qiáng)的場景，更長的處理長度有助于模型在訓(xùn)練與推理階段捕獲越多的上下文信息，2K的處理長度存在比較大的制約。baichuan-7B基于高效的attention算子優(yōu)化實(shí)現(xiàn)了萬級(jí)別超長動(dòng)態(tài)窗口的擴(kuò)張能力，本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口，使模型應(yīng)用場景更加廣泛。

此外，baichuan-7B還對(duì)模型訓(xùn)練流程進(jìn)行了深度優(yōu)化，采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇，使得baichuan-7B模型的收斂速度大大提升。與同等參數(shù)規(guī)模的模型相比，baichuan-7B在困惑度（PPL）和訓(xùn)練損失（training loss）等關(guān)鍵性能指標(biāo)上表現(xiàn)更加優(yōu)秀。

百川智能稱，baichuan-7B代碼采用Apache-2.0協(xié)議，模型權(quán)重采用了免費(fèi)商用協(xié)議，只需進(jìn)行簡單登記即可免費(fèi)商用。

baichuan-7B此次開源的內(nèi)容包含了推理代碼、INT4量化實(shí)現(xiàn)、微調(diào)代碼，以及預(yù)訓(xùn)練模型的權(quán)重。其中，微調(diào)代碼方便用戶對(duì)模型進(jìn)行調(diào)整和優(yōu)化；推理代碼與INT4量化實(shí)現(xiàn)則有助于開發(fā)者低成本地進(jìn)行模型的部署和應(yīng)用；預(yù)訓(xùn)練模型權(quán)重開源后，用戶則可以直接使用預(yù)訓(xùn)練模型進(jìn)行各種實(shí)驗(yàn)研究。

據(jù)了解，北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已率先使用baichuan-7B模型推進(jìn)相關(guān)研究工作，并計(jì)劃在未來與百川智能深入合作，共同推動(dòng)baichuan-7B模型的應(yīng)用和發(fā)展。

聲明：文章來源于網(wǎng)絡(luò)轉(zhuǎn)載，是作者獨(dú)立觀點(diǎn)，不代表浙北數(shù)據(jù)立場
如有不合適或侵權(quán)等問題請(qǐng)及時(shí)聯(lián)絡(luò)我們0572-2100075，會(huì)第一時(shí)間刪除，保障作者權(quán)益

上一篇：谷歌更新隱私政策明確在用網(wǎng)上公共數(shù)據(jù)訓(xùn)練AI

下一篇：提前到崗，推特新任CEO將于本周一走馬上任

咨詢電話（微信同號(hào)）18905829229

王小川的百川智能發(fā)布開源中英文大模型，清華北大率先使用

咨詢電話（微信同號(hào)）
18905829229