DeepSeek創(chuàng)始人梁文鋒的與眾不同

1小時前發(fā)布

幕后 | 行業(yè)資訊

1.我們做大模型，跟量化和金融都沒有直接關系。我們要做的是通用人工智能，也就是AGI。

2.語言大模型是通往AGI的必經(jīng)之路，并且初步具備了AGI的特征，所以我們從這里開始。

3.我們不會過早設計基于模型的一些應用，會專注在大模型上。從長期看，大模型應用門檻會越來越低，初創(chuàng)公司在未來20年任何時候下場，也都有機會。我們的目標很明確，就是不做垂類和應用，而是做研究，做探索。

4.我們理解人類智能的本質就是語言，人的思維就是一個語言的過程。你以為你在思考，其實可能是你在腦子里編織語言。這意味著，在語言大模型上可能誕生出類人的人工智能（AGI）。

5.只做復刻的話，可以在公開論文或開源代碼基礎上，只需訓練很少次數(shù)，甚至只需finetune（微調）一下，成本很低。而做研究，要做各種實驗和對比，需要更多算力，對人員要求也更高，所以成本更高。

6.我們希望更多人，哪怕一個小App都可以低成本去用上大模型，而不是技術只掌握在一部分人和公司手中，形成壟斷。大廠的模型，可能會和他們的平臺或生態(tài)捆綁，而我們是完全自由的。

7.從商業(yè)角度來講，基礎研究是投入回報比很低的。我們比較確定的是，既然我們想做這個事，又有這個能力，這個時間點上，我們就是最合適人選之一。

8.從最早的1張卡，到2015年的100張卡、2019年的1000張卡，再到一萬張，這個過程是逐步發(fā)生的。很多人會以為這里邊有一個不為人知的商業(yè)邏輯，但其實，主要是好奇心驅動，對AI能力邊界的好奇。

9.對很多行外人來說，ChatGPT這波浪潮沖擊特別大；但對行內人來說，2012年AlexNet帶來的沖擊已經(jīng)引領一個新的時代。AlexNet的錯誤率遠低于當時其他模型，復蘇了沉睡幾十年的神經(jīng)網(wǎng)絡研究。雖然具體技術方向一直在變，但模型、數(shù)據(jù)和算力這三者的組合是不變的，特別是當2020年OpenAI發(fā)布GPT3后，方向很清楚，需要大量算力。那之后，我們有意識地去部署盡可能多的算力。

10.一件激動人心的事，不能單純用錢衡量。就像家里買鋼琴，一來買得起，二來是因為有一群急于在上面彈奏樂曲的人。

11.人工成本是對未來的投資，是公司最大的資產(chǎn)。我們選的人相對樸實一點，有好奇心，來我們這里有機會去做研究。大廠很難單純去做研究，做訓練，它更多會是業(yè)務需求驅動。如果不能很快應用，大廠不一定能持續(xù)堅持，因為它更需要看到結果。

12.我們招人有條原則是，看能力，而不是看經(jīng)驗。如果追求短期目標，找現(xiàn)成有經(jīng)驗的人是對的。但如果看長遠，經(jīng)驗就沒那么重要，基礎能力、創(chuàng)造性與熱愛等更重要。

13.我們的核心技術崗位，基本以應屆和畢業(yè)一兩年的人為主。做一件事，有經(jīng)驗的人會不假思索告訴你，應該這樣做，但沒有經(jīng)驗的人，會反復摸索、很認真去想應該怎么做，然后找到一個符合當前實際情況的解決辦法。

14.我們招人的條件是熱愛，這些人的熱情通常會表現(xiàn)出來，因為他真的很想做這件事，所以這些人往往同時也在找你。

15.我們的考核標準和一般公司不太一樣。我們沒有KPI，也沒有所謂的任務。

16.創(chuàng)新需要盡可能少的干預和管理，讓每個人有自由發(fā)揮的空間和試錯機會。創(chuàng)新往往都是自己產(chǎn)生的，不是刻意安排的，更不是教出來的。我們交給員工重要的事，并且不干預他。讓他自己想辦法，自己發(fā)揮。

17.招人時確保價值觀一致，然后通過企業(yè)文化來確保步調一致。當然，我們并沒有一個成文的企業(yè)文化，因為所有成文的東西，又會阻礙創(chuàng)新。更多時候，是管理者的以身示范，遇到一件事，你如何做決策，會成為一種準則。

18.按照教科書的方法論來推導創(chuàng)業(yè)公司，在當下，他們做的事，都是活不下來的。但市場是變化的，真正的決定力量往往不是一些現(xiàn)成的規(guī)則和條件，而是一種適應和調整變化的能力。很多大公司的組織結構已經(jīng)不能快速響應和快速做事，而且他們很容易讓之前的經(jīng)驗和慣性成為束縛，而這波AI新浪潮之下，一定會有一批新公司誕生。

19.最讓我們興奮的是去搞清我們的猜想是不是事實，如果是對的，就會很興奮了。

20.信仰者會之前就在這里，之后也在這里。他們更會去批量買卡，或者跟云廠商簽長協(xié)議，而不是短期去租。

21.創(chuàng)新是昂貴且低效的，有時候伴隨著浪費。所以經(jīng)濟發(fā)展到一定程度之后，才能夠出現(xiàn)創(chuàng)新。很窮的時候，或者不是創(chuàng)新驅動的行業(yè)，成本和效率非常關鍵。OpenAI也是燒了很多錢才出來的。

22.這個世界存在很多無法用邏輯解釋的事，就像很多程序員，也是開源社區(qū)的瘋狂貢獻者，一天很累了，還要去貢獻代碼。類似你徒步50公里，整個身體是癱掉的，但精神很滿足。

23.不是所有人都能瘋狂一輩子，但大部分人，在他年輕的那些年，可以完全沒有功利目的，投入地去做一件事。

24.我們的大模型服務降價只是按照自己的步調來做事，然后核算成本定價。我們的原則是不貼錢，也不賺取暴利，在成本之上稍微有點利潤。

25.搶用戶并不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中，成本先降下來了，另一方面也覺得無論API，還是AI，都應該是普惠的、人人可以用得起的東西。

26.如果目標是做應用，那沿用Llama結構，短平快上產(chǎn)品也是合理選擇。但我們的目的地是AGI，這意味著我們需要研究新的模型結構，在有限資源下，實現(xiàn)更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。除了模型結構，我們還做了大量其他的研究，包括怎么構造數(shù)據(jù)，如何讓模型更像人類等，這都體現(xiàn)在我們發(fā)布的模型里。

27.最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年，中國公司習慣了別人做技術創(chuàng)新，我們拿過來做應用變現(xiàn)，但這并非是一種理所當然。這一波浪潮里，我們的出發(fā)點，就不是趁機賺一筆，而是走到技術的前沿，去推動整個生態(tài)發(fā)展。

28.隨著經(jīng)濟發(fā)展，中國也要逐步成為貢獻者，而不是一直搭便車。過去三十多年IT浪潮里，我們基本沒有參與到真正的技術創(chuàng)新里。我們已經(jīng)習慣摩爾定律從天而降，躺在家里18個月就會出來更好的硬件和軟件。但其實，這是西方主導的技術社區(qū)一代代孜孜不倦創(chuàng)造出來的，只因為之前我們沒有參與這個過程，以至于忽視了它的存在。

29.大部分中國公司習慣follow，而不是創(chuàng)新。

30.創(chuàng)新的成本肯定不低，過去那種拿來主義的慣例和過去的國情有關。但現(xiàn)在，無論中國的經(jīng)濟體量，還是字節(jié)、騰訊這些大廠的利潤，放在全球都不低。我們創(chuàng)新缺的不是資本，而是缺乏信心以及不知道怎么組織高密度的人才實現(xiàn)有效的創(chuàng)新。

31.過去三十年，我們都只強調賺錢，對創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅動的，還需要好奇心和創(chuàng)造欲。我們只是被過去那種慣性束縛了，但它也是階段性的。

32.在顛覆性的技術面前，閉源形成的護城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超。所以我們把價值沉淀在團隊上，我們的同事在這個過程中得到成長，積累很多know-how，形成可以創(chuàng)新的組織和文化，這就是我們的護城河。

33.開源，發(fā)論文，并沒有失去什么。對于技術人員來說，被follow是很有成就感的事。開源更像一個文化行為，而非商業(yè)行為。給予是一種額外的榮譽，一個公司這么做也會有文化的吸引力。

34.美國最賺錢的公司，都是厚積薄發(fā)的高科技公司。

35.中國AI和美國真實的gap是原創(chuàng)和模仿的差距。如果這個不改變，中國永遠只能是追隨者，所以有些探索也是逃不掉的。

36.英偉達的領先，不只是一個公司的努力，而是整個西方技術社區(qū)和產(chǎn)業(yè)共同努力的結果。他們能看到下一代的技術趨勢，手里有路線圖。中國AI的發(fā)展，同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來，是因為缺乏配套的技術社區(qū)，只有第二手消息，所以中國必然需要有人站到技術的前沿。

37.我們不會閉源，我們認為先有一個強大的技術生態(tài)更重要。

38.我們短期內沒有融資計劃，我們面臨的問題從來不是錢，而是高端芯片被禁運。

39.更多的投入并不一定產(chǎn)生更多的創(chuàng)新，否則大廠可以把所有的創(chuàng)新包攬了。

40.我們認為當前階段是技術創(chuàng)新的爆發(fā)期，而不是應用的爆發(fā)期。長遠來說，我們希望形成一種生態(tài)，就是業(yè)界直接使用我們的技術和產(chǎn)出，我們只負責基礎模型和前沿的創(chuàng)新，然后其它公司在DeepSeek的基礎上構建toB、toC的業(yè)務。如果能形成完整的產(chǎn)業(yè)上下游，我們就沒必要自己做應用。

41.如果需要，我們做應用也沒障礙，但研究和技術創(chuàng)新永遠是我們第一優(yōu)先級。

42.技術沒有秘密，但重置需要時間和成本。英偉達的顯卡，理論上沒有任何技術秘密，很容易復制，但重新組織團隊以及追趕下一代技術都需要時間，所以實際的護城河還是很寬。

43.提供云服務不是我們的主要目標，我們的目標是去實現(xiàn)AGI。

44.大廠有現(xiàn)成的用戶，但它的現(xiàn)金流業(yè)務也是它的包袱，也會讓它成為隨時被顛覆的對象。

45.大模型創(chuàng)業(yè)公司可能活下來2到3家?，F(xiàn)在都還處在燒錢階段，那些自我定位清晰、更能精細化運營的，更有機會活下來。其它公司可能會脫胎換骨。有價值的東西不會煙消云散，但會換一種方式。

46.我經(jīng)常思考的是，一個東西能不能讓社會的運行效率變高，以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長的位置。只要終局是讓社會效率更高，就是成立的。中間很多都是階段性的，過度關注必然眼花繚亂。

47.我們發(fā)布的V2模型沒有海外回來的人，都是本土的。前50名頂尖人才可能不在中國，但我們能自己打造這樣的人。

48.DeepSeek也全是自下而上的。而且我們一般不前置分工，而是自然分工。每個人有自己獨特的成長經(jīng)歷，都是自帶想法的，不需要push他。探索過程中，他遇到問題，自己就會拉人討論。不過當一個idea顯示出潛力，我們也會自上而下地去調配資源。

49.我們每個人對于卡和人的調動是不設上限的。如果有想法，每個人隨時可以調用訓練集群的卡無需審批，同時因為不存在層級和跨部門，也可以靈活調用所有人，只要對方也有興趣。

50.我們選人的標準一直都是熱愛和好奇心，所以很多人會有一些奇特的經(jīng)歷，很有意思。很多人對做研究的渴望，遠超對錢的在意。

51.創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神？首先是敢。Chatgpt出來時，整個國內對做前沿創(chuàng)新都缺乏信心，從投資人到大廠，都覺得差距太大了，還是做應用吧。但創(chuàng)新首先需要自信，這種信心通常在年輕人身上更明顯。

52.我們在做最難的事。對頂級人才吸引最大的，肯定是去解決世界上最難的問題。其實，頂尖人才在中國是被低估的。因為整個社會層面的硬核創(chuàng)新太少了，使得他們沒有機會被識別出來。我們在做最難的事，對他們是有吸引力的。

53.OpenAI不是神，不可能一直沖在前面。

54.AGI可能是2年、5年或者10年，總之會在我們有生之年實現(xiàn)。至于路線圖，即使在我們公司內部，也沒有統(tǒng)一意見。但我們確實押注了三個方向：一是數(shù)學和代碼，二是多模態(tài)，三是自然語言本身。數(shù)學和代碼是AGI天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統(tǒng)，有可能通過自我學習就能實現(xiàn)很高的智能。另一方面，多模態(tài)、參與到人類的真實世界里學習，對AGI也是必要的。我們對一切可能性都保持開放。

55.未來會有專門公司提供基礎模型和基礎服務，會有很長鏈條的專業(yè)分工。更多人在之上去滿足整個社會多樣化的需求。

56.我主要的精力在研究下一代的大模型，還有很多未解決的問題。

57.所有的套路都是上一代的產(chǎn)物，未來不一定成立。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來AI的盈利模式，就像馬化騰創(chuàng)業(yè)時，你去討論通用電氣和可口可樂一樣，很可能是一種刻舟求劍。

58.我們經(jīng)歷了一個漫長的積累過程，外部看到的是幻方2015年后的部分，但其實我們做了16年。

59.未來中國產(chǎn)業(yè)結構的調整，會更依賴硬核技術的創(chuàng)新。當很多人發(fā)現(xiàn)過去賺快錢很可能來自時代運氣，就會更愿意俯身去做真正的創(chuàng)新。

60.未來硬核創(chuàng)新會越來越多，現(xiàn)在還不容易被理解，是因為整個社會群體需要被事實教育。當這個社會讓硬核創(chuàng)新的人功成名就，群體性想法就會改變，我們只是還需要一堆事實和一個過程。

內容由作者原創(chuàng)，轉載請注明來源，附以原文鏈接

http://www.mokal.cn/news/12011.html