一、大模型的分類
按照輸入數(shù)據(jù)類型的不同,大模型主要可以分為以下三大類:
· 語(yǔ)言大模型(NLP):是指在自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域中的一類大模型,通常用于處理文本數(shù)據(jù)和理解自然語(yǔ)言。這類大模型的主要特點(diǎn)是它們?cè)诖笠?guī)模語(yǔ)料庫(kù)上進(jìn)行了訓(xùn)練,以學(xué)習(xí)自然語(yǔ)言的各種語(yǔ)法、語(yǔ)義和語(yǔ)境規(guī)則。例如:GPT系列(OpenAI)、Bard(Google)、文心一言(百度)。
前排提示,文末有大模型AGI-CSDN獨(dú)家資料包哦!
· 視覺大模型(CV):是指在計(jì)算機(jī)視覺(Computer Vision,CV)領(lǐng)域中使用的大模型,通常用于圖像處理和分析。這類模型通過在大規(guī)模圖像數(shù)據(jù)上進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)各種視覺任務(wù),如圖像分類、目標(biāo)檢測(cè)、圖像分割、姿態(tài)估計(jì)、人臉識(shí)別等。例如:VIT系列(Google)、文心UFO、華為盤古CV、INTERN(商湯)。
· 多模態(tài)大模型:是指能夠處理多種不同類型數(shù)據(jù)的大模型,例如文本、圖像、音頻等多模態(tài)數(shù)據(jù)。這類模型結(jié)合了NLP和CV的能力,以實(shí)現(xiàn)對(duì)多模態(tài)信息的綜合理解和分析,從而能夠更全面地理解和處理復(fù)雜的數(shù)據(jù)。例如:DingoDB多模向量數(shù)據(jù)庫(kù)(九章云極DataCanvas)、DALL-E(OpenAI)、悟空畫畫(華為)、midjourney。
按照應(yīng)用領(lǐng)域的不同,大模型主要可以分為L(zhǎng)0、L1、L2三個(gè)層級(jí):
· 通用大模型L0:是指可以在多個(gè)領(lǐng)域和任務(wù)上通用的大模型。它們利用大算力、使用海量的開放數(shù)據(jù)與具有巨量參數(shù)的深度學(xué)習(xí)算法,在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,以尋找特征并發(fā)現(xiàn)規(guī)律,進(jìn)而形成可“舉一反三”的強(qiáng)大泛化能力,可在不進(jìn)行微調(diào)或少量微調(diào)的情況下完成多場(chǎng)景任務(wù),相當(dāng)于AI完成了“通識(shí)教育”。
· 行業(yè)大模型L1:是指那些針對(duì)特定行業(yè)或領(lǐng)域的大模型。它們通常使用行業(yè)相關(guān)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或微調(diào),以提高在該領(lǐng)域的性能和準(zhǔn)確度,相當(dāng)于AI成為“行業(yè)專家”。
· 垂直大模型L2:是指那些針對(duì)特定任務(wù)或場(chǎng)景的大模型。它們通常使用任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或微調(diào),以提高在該任務(wù)上的性能和效果。
二、大模型的泛化與微調(diào)
模型的泛化能力:是指一個(gè)模型在面對(duì)新的、未見過的數(shù)據(jù)時(shí),能夠正確理解和預(yù)測(cè)這些數(shù)據(jù)的能力。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,模型的泛化能力是評(píng)估模型性能的重要指標(biāo)之一。
什么是模型微調(diào):給定預(yù)訓(xùn)練模型(Pre-trained model),基于模型進(jìn)行微調(diào)(Fine Tune)。相對(duì)于從頭開始訓(xùn)練(Training a model from scatch),微調(diào)可以省去大量計(jì)算資源和計(jì)算時(shí)間,提高計(jì)算效率,甚至提高準(zhǔn)確率。
模型微調(diào)的基本思想是使用少量帶標(biāo)簽的數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行再次訓(xùn)練,以適應(yīng)特定任務(wù)。在這個(gè)過程中,模型的參數(shù)會(huì)根據(jù)新的數(shù)據(jù)分布進(jìn)行調(diào)整。這種方法的好處在于,它利用了預(yù)訓(xùn)練模型的強(qiáng)大能力,同時(shí)還能夠適應(yīng)新的數(shù)據(jù)分布。因此,模型微調(diào)能夠提高模型的泛化能力,減少過擬合現(xiàn)象。
常見的模型微調(diào)方法:
· Fine-tuning:這是最常用的微調(diào)方法。通過在預(yù)訓(xùn)練模型的最后一層添加一個(gè)新的分類層,然后根據(jù)新的數(shù)據(jù)集進(jìn)行微調(diào)。
· Feature augmentation:這種方法通過向數(shù)據(jù)中添加一些人工特征來(lái)增強(qiáng)模型的性能。這些特征可以是手工設(shè)計(jì)的,也可以是通過自動(dòng)特征生成技術(shù)生成的。
· Transfer learning:這種方法是使用在一個(gè)任務(wù)上訓(xùn)練過的模型作為新任務(wù)的起點(diǎn),然后對(duì)模型的參數(shù)進(jìn)行微調(diào),以適應(yīng)新的任務(wù)。
大模型是未來(lái)人工智能發(fā)展的重要方向和核心技術(shù),未來(lái),隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,大模型將在更多領(lǐng)域展現(xiàn)其巨大的潛力,為人類萬(wàn)花筒般的AI未來(lái)拓展無(wú)限可能性。
三、常見大模型
閉源大模型
1.GPT系列
OpenAI 公司在 2018 年提出的 GPT(Generative Pre-Training)模型是典型的 生成式預(yù)訓(xùn)練語(yǔ)言模型 之一。
GPT 模型的基本原則是通過語(yǔ)言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中,這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語(yǔ)義,并充當(dāng)通用任務(wù)求解器。它能夠成功的兩個(gè)關(guān)鍵點(diǎn):
訓(xùn)練能夠準(zhǔn)確預(yù)測(cè)下一個(gè)單詞的僅解碼器的 Transformer 語(yǔ)言模型
擴(kuò)展語(yǔ)言模型的大小。
2.Claude系列
Claude 系列模型是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司開發(fā)的閉源語(yǔ)言大模型,可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。目前包含 Claude 和 Claude-Instant 兩種模型可供選擇,其中 Claude Instant 的延遲更低,性能略差,價(jià)格比完全體的 Claude-v1 要便宜,兩個(gè)模型的上下文窗口都是 9000 個(gè)token(約 5000 個(gè)單詞,或 15 頁(yè))它的目標(biāo)是“更安全”、“危害更小”的人工智能。最早的 Claude 于 2023 年 3 月 15 日發(fā)布,并在 2023 年 7 月 11 日,更新至 Claude-2。Claude 2 的訓(xùn)練參數(shù)官方并未公開,但是相關(guān)的猜測(cè)大概是 860.1 億個(gè)參數(shù)。
該系列模型通過無(wú)監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強(qiáng)化學(xué)習(xí)和 Constitutional AI 技術(shù)(包含監(jiān)督訓(xùn)練和強(qiáng)化學(xué)習(xí))進(jìn)行訓(xùn)練,旨在改進(jìn)模型的有用性、誠(chéng)實(shí)性和無(wú)害性。值得一提的是,Claude 最高支持 100K 詞元的上下文,而 Claude-2 更是拓展到了 200K 詞元的上下文。相比于Claude 1.3, Claude 2 擁有更強(qiáng)的綜合能力,同時(shí)能夠生成更長(zhǎng)的相應(yīng)。
3.PaLM系列
PaLM 系列語(yǔ)言大模型由 Google 開發(fā)。其初始版本于 2022 年 4 月發(fā)布,并在 2023 年 3 月公開了 API。PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建,訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符,內(nèi)容涵蓋網(wǎng)頁(yè)、書籍、新聞、開源代碼等多種形式的語(yǔ)料。前 PaLM 共有 8B、62B、540B 三個(gè)不同參數(shù)量的模型版本。Google 還開發(fā)了多種 PaLM 的改進(jìn)版本。Med-PaLM 是 PaLM 540B 在醫(yī)療數(shù)據(jù)上進(jìn)行了微調(diào)后的版本,在 MedQA 等醫(yī)療問答數(shù)據(jù)集上取得了最好成績(jī)。PaLM-E 是 PaLM 的多模態(tài)版本,能夠在現(xiàn)實(shí)場(chǎng)景中控制機(jī)器人完成簡(jiǎn)單任務(wù)。
2023 年 5 月,Google 發(fā)布了 PaLM 2,但并未公開其技術(shù)細(xì)節(jié)。Google 內(nèi)部文件顯示其參數(shù)量為 340B,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。它是 PaLM(540B) 的升級(jí)版,能夠處理“多語(yǔ)言任務(wù)”。它使用了一個(gè)覆蓋 100 多種語(yǔ)言的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。而 PaLM2 實(shí)際上是一系列模型,可以根據(jù)規(guī)模分為:Gecko、Otter、Bison和Unicorn,可以根據(jù)不同的領(lǐng)域和需求進(jìn)行微調(diào),最小模型可以部署在移動(dòng)端,最大的參數(shù)量也只有 14.7B?,F(xiàn)已部署在 Google 的 25 個(gè)產(chǎn)品和功能中,包括 Bard 和 Google Worksapce 應(yīng)用,針對(duì)不同的領(lǐng)域又可以變成專有模型,比如 Med-PaLM 2,是第一個(gè)在美國(guó)醫(yī)療執(zhí)照考試類問題上表現(xiàn)出“專家”水平的大型語(yǔ)言模型。
4.國(guó)產(chǎn)閉源大模型
1.文心一言:
文心一言是基于百度文心大模型的知識(shí)增強(qiáng)語(yǔ)言大模型,文心大模型參數(shù)量非常大,達(dá)到了 2600 億
研發(fā)公司:百度
時(shí)間:2023 年 3 月測(cè)試版, 2019 年發(fā)布 1.0 版,現(xiàn)已更新到 4.0 版本
參數(shù): 2600 億
本質(zhì):基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練
使用地址:https://yiyan.baidu.com/
2.星火大模型:
星火大模型包含超過1700 億個(gè)參數(shù),來(lái)源于數(shù)十億的語(yǔ)言數(shù)據(jù)集。
研發(fā)公司:科大訊飛
時(shí)間:2023 年 5 月 6 日 發(fā)布,8 月 15 日 升級(jí)到 V2.0 版, 2023 年 10 月 24 日 V3.0, 全面對(duì)標(biāo)ChatGPT
特點(diǎn):多模態(tài)能力,已實(shí)現(xiàn)圖像描述、圖像理解、圖像推理、識(shí)圖創(chuàng)作、文圖生成、虛擬人合成
參數(shù):1700 億
參數(shù)說(shuō)明:盡管比 ChatGPT 3.5 模型 1.5 萬(wàn)億個(gè)差著數(shù)量級(jí),但 ChatGPT 覆蓋了全球主要語(yǔ)言,漢語(yǔ)不到其中 10% 的數(shù)據(jù)量。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文。
使用地址: https://xinghuo.xfyun.cn/
開源大模型
1.LLaMA 系列
LLaMA 系列模型是 Meta 開源的一組參數(shù)規(guī)模 從 7B 到 70B 的基礎(chǔ)語(yǔ)言模型,它們都是在數(shù)萬(wàn)億個(gè)字符上訓(xùn)練的,展示了如何僅使用公開可用的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型,而不需要依賴專有或不可訪問的數(shù)據(jù)集。這些數(shù)據(jù)集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù),以提高數(shù)據(jù)質(zhì)量和多樣性,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴(kuò)展。特別地,LLaMA 13B 在 CommonsenseQA 等 9 個(gè)基準(zhǔn)測(cè)試中超過了 GPT-3 (175B),而 LLaMA 65B 與最優(yōu)秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美。LLaMA 通過使用更少的字符來(lái)達(dá)到最佳性能,從而在各種推理預(yù)算下具有優(yōu)勢(shì)。
與 GPT 系列相同,LLaMA 模型也采用了 decoder-only 架構(gòu),但同時(shí)結(jié)合了一些前人工作的改進(jìn),例如:
Pre-normalization,為了提高訓(xùn)練穩(wěn)定性,LLaMA 對(duì)每個(gè) Transformer子層的輸入進(jìn)行了 RMSNorm 歸一化,這種歸一化方法可以避免梯度爆炸和消失的問題,提高模型的收斂速度和性能;
SwiGLU 激活函數(shù),將 ReLU 非線性替換為 SwiGLU 激活函數(shù),增加網(wǎng)絡(luò)的表達(dá)能力和非線性,同時(shí)減少參數(shù)量和計(jì)算量;
RoPE 位置編碼,模型的輸入不再使用位置編碼,而是在網(wǎng)絡(luò)的每一層添加了位置編碼,RoPE 位置編碼可以有效地捕捉輸入序列中的相對(duì)位置信息,并且具有更好的泛化能力。
這些改進(jìn)使得 LLaMA 模型在自然語(yǔ)言理解、生成、對(duì)話等任務(wù)上都取得了較好的結(jié)果
LLaMA 開源地址
https://github.com/facebookresearch/llama
2.GLM 系列
模型是清華大學(xué)和智譜 AI 等合作研發(fā)的開源語(yǔ)言大模型。ChatGLM 是基于 GLM 結(jié)構(gòu)開發(fā)的具有 62 億參數(shù)量的語(yǔ)言大模型,支持 2048 的上下文長(zhǎng)度。其使用了包含 1 萬(wàn)億字符的中英文語(yǔ)料進(jìn)行訓(xùn)練,能夠支持中文和英文兩種語(yǔ)言的任務(wù)。通過監(jiān)督微調(diào)、反饋?zhàn)灾⑷祟惙答亸?qiáng)化學(xué)習(xí)等多種訓(xùn)練技術(shù),ChatGLM 擁有強(qiáng)大的生成能力,能夠生成更符合人類偏好的內(nèi)容。與 GLM 相似,通過 INT4 量化 和 P-Tuning v2 等高效微調(diào)的算法,ChatGLM 能夠在 7G 顯存的條件下進(jìn)行微調(diào)。
在 ChatGLM 的基礎(chǔ)上,2023 年 6 月發(fā)布的 ChatGLM 2 使用了包含 1.4 萬(wàn)億字符的中英預(yù)料進(jìn)行預(yù)訓(xùn)練,并使用人類偏好的數(shù)據(jù)對(duì)模型進(jìn)行對(duì)齊訓(xùn)練,擁有比前一版本更加強(qiáng)大的能力,在多個(gè)任務(wù)上取得提升。
通過 FlashAttention 技術(shù),ChatGLM 2 能夠處理更長(zhǎng)的長(zhǎng)下文,支持的長(zhǎng)下文長(zhǎng)度達(dá)到了 3.2 萬(wàn)字符
通過 Multi-Query Attention 技術(shù),ChatGLM 2 能夠進(jìn)一步地提升推理速度,減小對(duì)顯卡的顯存占用。
在 2023 年 10 月 27 日的 2023 中國(guó)計(jì)算機(jī)大會(huì)(CNCC)上,智譜 AI 推出了 ChatGLM3 ,ChatGLM3-6B 是 ChatGLM3 系列中的開源模型,在保留了前兩代模型對(duì)話流暢、部署門檻低等眾多優(yōu)秀特性的基礎(chǔ)上,ChatGLM3-6B 引入了如下特性:
更強(qiáng)大的基礎(chǔ)模型: ChatGLM3-6B 的基礎(chǔ)模型 ChatGLM3-6B-Base 采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語(yǔ)義、數(shù)學(xué)、推理、代碼、知識(shí)等不同角度的數(shù)據(jù)集上測(cè)評(píng)顯示,ChatGLM3-6B-Base 具有在 10B 以下的基礎(chǔ)模型中最強(qiáng)的性能。
更完整的功能支持: ChatGLM3-6B 采用了全新設(shè)計(jì)的 Prompt 格式,除正常的多輪對(duì)話外。同時(shí)原生支持工具調(diào)用(Function Call)、代碼執(zhí)行(Code Interpreter)和 Agent 任務(wù)等復(fù)雜場(chǎng)景。
更全面的開源序列: 除了對(duì)話模型 ChatGLM3-6B 外,還開源了基礎(chǔ)模型 ChatGLM3-6B-Base、長(zhǎng)文本對(duì)話模型 ChatGLM3-6B-32K。以上所有權(quán)重對(duì)學(xué)術(shù)研究完全開放,在填寫問卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用。
開源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/