Meta揭示了Llama-3-我們將新的頂尖開源AI模型進行測試

meta發布了llama 3,這是目前最先進的開源大型語言模型。它在llama 2的基礎上進行了改進,令人驚訝的是,有傳言說這個版本會在下個月發布。

llama-2的開源根源對其他強大模型的同時開發起到了關鍵作用,例如mixtral,alpaca,vicuna和wizardlm。現在,llama-3承諾將進一步提升這些功能,提供與openai當前旗艦ai模型gpt-4相媲美的功能。

meta在周四發布了這個版本,稱其為“我們最先進的開源大型語言模型的下一代”。這家科技巨頭對其功能非常有信心,llama 3正在驅動meta ai,該技術已添加到公司的instagram、facebook和whatsapp等極其熱門的應用程式中。該模型已在部分國家推出,但其他地區的用戶可以通過vpn訪問。

-廣告-

meta ai的聊天機器人界面可與chatgpt plus媲美,而且是免費的。

“我們通過我們的新一代llama 3 ai模型升級了meta ai,我們開源了這個模型,”mark zuckerberg在facebook上發帖說。“有了這個新模型,我們相信meta ai現在是您可以免費使用的最智能的ai助手。”

decrypt已經測試了這個新ai,發現它與chatgpt-plus一樣具有能力,而無需付費訂閱。它可以生成圖像和動畫、產生代碼,提供連貫的、在相應上下文中有意義的回應。這個新的聊天機器人也可以訪問互聯網,但仍無法與像perplexity這樣的專門解決方案的功能相匹敵。

也許唯一的缺點是,llama-3目前的上下文窗口限制為8k令牌-大約6000個單詞。

meta確實發布了一個有70億參數的llama-3模型,但使用它需要大量的計算能力-可能是一整個gpu機架。根據合成基準測試,這個模型擊敗了gemini 1.5 pro和claude 3 sonnet。

還有一個有80億參數的模型可在消費級gpu上本地運行。這個模型在各種合成基準測試中擊敗了google的gemma和mistral 7b。該模型尚未列入llm arena,因此目前還沒有主觀elo得分可報告。

這兩個模型也可以在雲實例中以較低的成本運行。

“我們致力於以負責任的方式開發llama 3,我們提供各種資源來幫助其他人負責任地使用它,”meta表示。這包括推出新的信任和安全工具,如llama guard 2、code shield和cybersec eval 2。

meta表示,在未來幾個月內,他們計劃推出新功能、更長的上下文窗口、額外的模型尺寸和增強的性能。他們還將分享llama 3的研究論文。

“通過搭載llama 3技術的meta ai,現在是全球領先的可以提高您智能並輕鬆工作的ai助手之一-幫助您學習、完成任務、創建內容並建立聯繫,以最大程度地利用每一刻,”meta說。
meta表示,它也正在訓練一個龐大的4000億參數模型,預計將於今年晚些時候發布。這個模型—可能與claude opus或最新版本的gpt-4.5相比—可能是迄今為止最強大的開源模型。如果歷史重演,它還將作為一個新一代細調模型的基礎,這些模型將在整體質量上擊敗llama-3,並將增加對領先的封閉源模型的競爭。

騎著llama

decrypt在meta ai內部測試了llama-3,以查看它是否如zuck所說的那樣好。簡而言之,llama-3引入了一些顯著的功能和能力,應該是開源社區可以進行迭代的一個很好的基礎模型。

內容審核

llama-3展示了對內容審核的強烈承諾。即使面對常見的越獄技術,它始終拒絕生成有害的種族內容。

例如,當模型被要求提供如何誘惑一個女人的指示時,它提供了通用但有用的回應。然而,當被問及如何誘惑最好朋友的妻子時,模型堅決拒絕提供答案。

圖像和動畫

與chatgpt-plus類似,具有llama-3的meta ai能夠生成圖像。但是,它將這種能力進一步提升,提供了將它們動畫化的選項—這是chatgpt或gemini中沒有的功能。

meta ai使用llama-3生成的圖像比dalle-3生成的圖像更真實,但質量不及google即將推出的imagefx生成的圖像。

編碼能力

llama-3在編碼方面表現出色。當提出一個獨特且解釋不清的遊戲點子時,該模型能夠在兩次嘗試中生成必要的python代碼,從而產生一個功能性遊戲。第一次嘗試給了我們一個大致的創建遊戲的想法,但在我們澄清我們需要它用python時,它創建了可運行的代碼。

這款遊戲是功能性的,但缺少一些細節,比如在玩家獲勝後重新開始。其他聊天機器人也遇到了同樣的問題。

我們發現claude 3 sonnet是這項任務的最佳工具,其次是llama 3。gpt-4排名第三。然而,不同的用戶可能會得到不同的結果。

這裡有一個pastebin,其中包含由llama3、claude和chatgpt生成的源代碼,供有興趣的人測試使用。

政治中立

該模型的目標是政治中立,這一點在回答有關資本主義和共產主義的問題時已經證明。這些回答在結構上是相似的,為每個系統提供了介紹、優點和缺點。

這種中立的模式也在回答“男人是什麼?”和“女人是什麼?”等問題時觀察到。

儘管如此,它的回答略微偏向資本主義和左翼,這並不奇怪,因為這是大型語言模型中最常見的政治傾向。

邏輯推理

llama-3展現出強大的邏輯推理能力。當使用復雜的lsat問題對其進行測試時,該模型不僅提供正確答案,還提供清晰合理的解釋。
長提示限制

llama-3雖然有很多優勢,但在面對長提示時卻有困難。當遇到大約一頁半長度的提示時,像是gpt-4、claude或mistral這樣的模型可以理解,但這個模型卻會返回錯誤訊息。

語言理解

這個模型展示了對不同語言的強大理解能力。當要求它翻譯西班牙口號時,它不僅提供準確的翻譯,還提供背景資料以更好地理解口號。

結論

作為一個聊天機器人接口,由llama3驅動的meta ai可以與chatgpt plus競爭,是一個整體上很好的選擇。

從技術層面上看,作為llm的llama3在不同情境下足以與gpt-4競爭,只是在令牌上下文功能和檢索增強生成方面稍遜色(基本上是從用戶提供的特定數據集中提取信息)。對於懂技術的用戶來說可能很重要,但對於普通人來說可能不是很重要。

如果你主要使用chatgpt來生成dall-e的圖像,你可能想考慮取消訂閱,因為llama-3的圖像和動畫生成能力是可比的。但是,如果你還需要支持長提示,llama-3可能不是最佳選擇,而你可能要考慮繼續使用chatgpt-plus。

偶爾使用者可能會發現llama-3能滿足他們的需求,而不需要付費會員資格。

對於需要大量互聯網研究的任務,chatgpt plus或perplexity可能更合適。

最後,如果你的重點是編碼,llama-3可能是一個不錯的替代方案,儘管還有其他專門的工具可用。llama-3免費這一點是一個顯著的優勢。

Previous Post
Next Post

Leave a Reply

Your email address will not be published. Required fields are marked *