2023年11月6日,由創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開復(fù)成立的AI公司“零一萬物”發(fā)布了首款開源中英雙語大模型“Yi”。與此同時(shí),36氪從知情人士處獲悉,零一萬物已完成新一輪融資,由阿里云領(lǐng)投。目前,零一萬物估值已超10億美元,躋身獨(dú)角獸行列。
此前,“Yi”于11月2日已經(jīng)在Hugging Face低調(diào)上傳了兩個(gè)參數(shù)規(guī)模分別為6B和34B的基礎(chǔ)模型。截至11月5日,Yi-34B分別在Hugging Face LLM Leaderboard(pretrained)(預(yù)訓(xùn)練大語言模型)和中文大模型榜單C-Eval排行榜已經(jīng)爬升到1位。
上下文窗口,意味著模型的“記憶力”。據(jù)介紹,Yi目前擁有200K上下文窗口,可處理約40萬字的文本——這也是目前全球大模型中最長(zhǎng)的上下文窗口。
李開復(fù)提到,由于GPU緊缺,當(dāng)模型尺寸從6B推向更大的尺寸時(shí),團(tuán)隊(duì)需要把握好規(guī)模減少試錯(cuò)成本,不能一味追求“大”。通過打磨AI Infra,Yi-34B將訓(xùn)練成本下降了40%,“別的友商如果要用2000張GPU,我們只要1200張?!?/p>
Yi的訓(xùn)練數(shù)據(jù)主要來源于公開語料的爬取和數(shù)據(jù)庫。李開復(fù)介紹,訓(xùn)練數(shù)據(jù)的難點(diǎn)在于重復(fù)率高、質(zhì)量低。通過清晰,團(tuán)隊(duì)從100多T的數(shù)據(jù)中篩選出了3T。由于中文語料的質(zhì)量較低,目前,Yi的訓(xùn)練數(shù)據(jù)中英文語料的比例高于中文語料。
那么Yi的能力究竟幾何?在測(cè)評(píng)中,零一萬物參考了Meta開源模型Llama2能力測(cè)評(píng)中所用到的PIQA、SIQA、HellaSwag、WinoGrande等多個(gè)數(shù)據(jù)集,來評(píng)估Yi的“常識(shí)推理能力”“閱讀理解能力”“數(shù)學(xué)與代碼能力”等多維度能力。
結(jié)果顯示,Yi-6B在常識(shí)推理能力和閱讀理解能力上達(dá)到了國(guó)內(nèi)外開源模型的平均水平,但在數(shù)學(xué)與代碼能力上還較弱。Yi-34B在常識(shí)推理能力和閱讀理解能力上均大幅領(lǐng)先國(guó)內(nèi)外開源模型,在數(shù)學(xué)與代碼能力上處于領(lǐng)先水平。
相較于市面上常見的參數(shù)規(guī)模7B、13B,零一萬物給出的是6B和34B的方案。李開復(fù)認(rèn)為,34B的尺寸屬于開源大模型稀缺的“黃金比例”尺寸,達(dá)到“涌現(xiàn)”門檻、滿足精度要求的同時(shí),對(duì)廠商而言能夠采用高效率單卡推理,訓(xùn)練成本友好。
李開復(fù)坦言,在完成融資前,零一萬物為了覆蓋算力等訓(xùn)練成本已經(jīng)負(fù)債幾千萬美元。這也側(cè)面反映出李開復(fù)All in AI的決心。
作為零一萬物的發(fā)起人,李開復(fù)也可謂是中國(guó)人工智能的領(lǐng)軍人物之一。他曾先后擔(dān)任微軟全球副總裁、谷歌全球副總裁兼大中華區(qū)總裁,并在2009年創(chuàng)立了天使投資和企業(yè)孵化平臺(tái)創(chuàng)新工場(chǎng)。
2023年3月,李開復(fù)躬身入局大模型賽道,為籌建新公司零一萬物廣發(fā)“英雄帖”:“零一萬物歡迎有AI 2.0技術(shù)實(shí)力和AGI信仰的優(yōu)秀人才加入,一起打造AI2.0全新平臺(tái),加速AGI到來?!钡?月,零一萬物已有來自阿里、百度、谷歌、微軟等國(guó)內(nèi)外公司的數(shù)十位核心成員到位。發(fā)布會(huì)上,李開復(fù)介紹,“(團(tuán)隊(duì))在6、7月份寫的第一行代碼?!?/p>
如今,零一萬物已經(jīng)集結(jié)了國(guó)內(nèi)外一批人工智能領(lǐng)域的大牛:
比如零一萬物AI Infra副總裁戴宗宏,曾是阿里達(dá)摩院機(jī)器智能技術(shù)資深算法專家,以及華為云人工智能領(lǐng)域CTO。在阿里期間,他構(gòu)建了阿里巴巴搜索引擎平臺(tái),后帶領(lǐng)團(tuán)隊(duì)研發(fā)了圖像搜索應(yīng)用拍立淘。
再比如,零一萬物預(yù)訓(xùn)練負(fù)責(zé)人黃文灝來自智源人工智能研究院,曾擔(dān)任健康計(jì)算研究中心技術(shù)負(fù)責(zé)人。加入智源前,他曾任微軟亞洲研究院研究員,負(fù)責(zé)自然語言理解、實(shí)體抽取、對(duì)話理解以及人機(jī)協(xié)同等研究工作。加入零一萬物后,黃文灝團(tuán)隊(duì)主要負(fù)責(zé)Yi的訓(xùn)練。
李開復(fù)認(rèn)為,AI 2.0時(shí)代,最大的商機(jī)將出現(xiàn)在To C/消費(fèi)級(jí)的超級(jí)應(yīng)用。他提到,互聯(lián)網(wǎng)時(shí)代的Super App微信和抖音的第一個(gè)版本并不是Super App,而是準(zhǔn)確捕捉了用戶的需求。而零一萬物的目標(biāo)是在AI 2.0時(shí)代再做一款微信、抖音。
具體到零一萬物的商業(yè)規(guī)劃,李開復(fù)告訴36氪,AI 1.0時(shí)代無法商業(yè)化的公司很早被淘汰,而商業(yè)化的公司的最大挑戰(zhàn)是能夠可持續(xù)、可增長(zhǎng)——這意味著AI 1.0的不少公司需要人頭規(guī)模,不是高質(zhì)量的收入。
他強(qiáng)調(diào),收入的規(guī)模化不應(yīng)該用人頭推動(dòng),而應(yīng)該用技術(shù)推動(dòng)?!耙源藶樵瓌t,零一萬物將朝著Consumer(消費(fèi)級(jí))應(yīng)用發(fā)力?!笨紤]到國(guó)內(nèi)用戶的付費(fèi)意識(shí)和意愿尚在培養(yǎng)階段,零一萬物將同時(shí)考慮應(yīng)用的本地化和出海。
目前,零一萬物已經(jīng)啟動(dòng)100B以上參數(shù)規(guī)模的模型訓(xùn)練,而多模態(tài)大模型團(tuán)隊(duì)已經(jīng)集結(jié)了十多個(gè)人?!皫字苤畠?nèi)我們就有新的發(fā)布和大家分享?!崩铋_復(fù)透露,“Yi”的定位是通用底座,同時(shí),Yi系列量化版本、對(duì)話模型、數(shù)學(xué)模型、代碼模型、多模態(tài)模型將以快節(jié)奏推出。