<cite id="qbitq"><rp id="qbitq"><form id="qbitq"></form></rp></cite>

    • 在线看国产精品自拍内射,鲁丝片一区二区三区免费,玩弄人妻少妇500系列,亚洲一区二区三区18禁,国产精品毛片一区二区,影音先锋人妻啪啪av资源网站,亚洲国产精品日韩在线,国产精品日日摸夜夜添夜夜添2021

      財政部唯一指定政府采購信息網絡發布媒體 國家級政府采購專業網站

      服務熱線:400-810-1996   |   服務投訴:010-63819289

      新質生產力下的大模型產業化

      2025年06月06日 14:10 來源:數字中國打印

        商湯科技董事長兼CEO——徐立

        非常高興能夠在這里分享商湯對科技在如此大模型數據化和資產化的情境下,如何有效利用我們的數據要素。

        首先,在整個行業中,現在大模型的生成和制造遵循一個被認為是經驗性公理的尺度定律。這個尺度定律表明,隨著模型參數量、數據規模、訓練時間的增加,模型的性能得到顯著提升。因此,性能的整體提升速度很快。這也解釋了為什么計算資源已經成為這個時代的核心資源之一。

        我們也看到,西方大量地投入計算資源作為核心基礎設施。但更重要的是如何更有效地利用好數據。很多人認為數據的好壞無法區分,實際上,并非如此盡管數據質量都有所下降,但下降的速度和程度,例如指數β,其實是不同的。

        所以,我們的尺度定律在某種程度上可以為不同的數據資產打分,能夠跨越5—7個數量級的尺度,保持對性能的預測,并在較小的尺度上驗證性能優劣。因此,我們進行了很多關于數據的實驗。在一些真實的場景和問題下,我們發現當一個模型在同樣的數據集上,小在較的尺度上領先時,在大較的尺度上也會領先。這不僅涉及推理計算、語言知識等問題,而是基于數據本身的質量,而不是僅憑經驗的分數。

        我們對三個不同數據集在兩個問題下進行了數據質量的打分,可以看到,斜率越大,說明性能提升越快。有了這個指數,才能真正對數據質量進行區分。也就是說,我們不需要極大的算力,可以用一些小模型配合更高質量的數據,打造同樣的性能。例如Llama 80億參數的模型性能要比Llama2 700億參數的模型還要好,關鍵就在于數據質量的差異。

        我們在4月份發布的SenseChat日日新V5模型,是國內首個性能超過GPT4- Turbo的,模型其成功的原因在于我們對行業數據進行了細分,并且在這些數據上下功夫了很大的。

        我們理解,在中國開發大模型的過程中,有一個很重要的行業優勢在于如何利用好感知能力,對理解能力賦能。比如說比如在通用生成方面,我們發現,在很多垂直領域中,數據的構造與我們對這些垂直領域能力的理解是相關的。

        舉幾個例子,比如說模態的理解。舉例來說,這是一張手表的圖片,如果無法識別出來它的時間,就無法生成對應的描述。我們還可以識別出這是什么品牌的表手,這是一張英文考卷,可以識別出上面英文題目的意思,并用中文進行各種互動。當然,很多情況下需要理解圖片背后的意思,比如,左邊是一只可愛的恐龍,右邊是一只真實的恐龍,上面寫著“我媽第一次叫我吃飯”“我媽第二次叫我吃飯”。讓AI來理解這張圖,就會知道一般媽媽第一次叫你吃飯脾氣比較好,第二次叫你吃飯時會表現出不耐煩,我想這種概念大家都能理解。

        但是如果我們沒有在垂直方向上的理解,就很難真正意義上泛化這些問題。因此,中國在數據利用方面的核心優勢在于結合非常大的產業化數據理解。

        再來看生成,文本講多了,用圖片舉例子。方面以為如果我們要生成一張具有國家地理風格的圖片,不理解這種風格就很難生成出高質量的結果。左邊是我們生成的圖片,右邊是行業中最好的,包括OpenAI的成果。在橫向對比中,我們認為我們的模型目前在這一領域具有一定的領先性。

        這是一個亞洲女孩的美術攝影,頭發略微凌亂,對細節的把握非常重要。在特定行業中,例如文字識別,如果你不認識這個文字,就很難生成正確的內容。我們的品牌掛到一棟樓上,只有,我們生成的圖片是正確的。再比如,如果我們能夠識別福建話,我們當然可以生成福建話,但如果不行的話,生成過程就會變得非常困難。因此,行業場景的疊加是數據資產在大模型使用中最核心的產業化要素。

        構造行業場景差異化數據時,可以將大模型的數據分三層,與其能力有關,第一層叫世界知識,這是一個單純的記憶層,知識背后核心還是推理。真正意義上形成高質量數據的核心在于從一個知識點到另一個知識點背后的思維鏈。

        舉例來說,平行公理是一個數學公理,三角形內角和是180度,這當中的證明就是推理,一個模型的思考能力來自其背后強大的推理能力。因此,對于一些行業來說,如何構造更好地推理數據是非常重要的。跟世界的交互執行能力,有了交互數據才能更加豐富模型的核心能力。所以,我認為可以通過行業構造一個三層數據能力模型。

        垂直領域的數據差異化就是在這三層當中。比如,醫療方面就會明顯超GPT4越-,在一定垂直領域,你的數據比它更專業,構造的思維鏈數據就會更加高端。    所以,我認為數據要素在整個環境當中,模型的生成本身就是一種數據要素的消耗。而模型服務則是數據要素再次資產化的過程,因此,這構成了一個完整的以數據為核心的生產資料,為生產力帶來突破的飛輪,我相信,這也是未來大模型時代具有巨大行業潛力的原因之一。

        大家知道《時代周刊》通常用人是以物來做封面,少有用技術做封面。1997年,《時代周刊》用了克隆羊做封面。2015年,《時代周刊》用了虛擬現實做封面。2018年,用人工智能做封面。然而,這些技術的發展直到今天,仍未真正成為我們生活中不可或缺的基礎元素。這是為什么呢主要原因在于疊加的應用并沒有那么充分,并不是改變我們生活當中基礎要素的部分。

        去年ChatGPT又被放到《時代周刊》上,我認為ChatGPT火不是因為GPT,而是因為GPT本身的Thansformer架構,這在2018年已經成為行業共識,ChatGPT真正的疊加應用才是它的革命性時刻。在中國,最不缺的就是垂直化數據,也希望借此跟大家一起推動這個時代應用型的變化。

        謝謝大家!

        (以上內容根據嘉賓發言速記整理)

      主站蜘蛛池模板: 久久中文字幕一区二区| 幻女free性俄罗斯毛片| 精品视频99| 国产亚洲精品久久综合阿香| 免费无码av片在线观看网站| 亚洲一级电影在线观看| 成人国产欧美大片一区| 国产人人干| 日韩精品一区二区电影| 国产精品国产三级国产av主| 国产丰满乱子伦无码专区| 欧美亚洲精品在线| 实拍女处破www免费看| 欧美日韩国产高清视频在线观看 | 亚洲日本va午夜中文字幕久久 | a4yy私人毛片| 国产成人精品午夜福利在线播放| 铁岭市| 欧洲精品无码| 国产精品亚欧美一区二区三区| 亚洲精品自拍在线视频| 精品国产一区二区三区av色诱| 国内一区二区三区av| 欧美人与禽交片mp4| 亚洲中文字幕乱码电影| 国产一区二区不卡91| 亚洲精品一区二区三区中文字幕 | 亚洲aⅴ男人的天堂在线观看| 黑巨人与欧美精品一区| 先锋影音av资源网在线观看| 女人让男人桶爽30分钟小视频免费| 国产精品成人免费视频一区| 亚洲欧美日韩综合久久久| 欧美aⅴ电影| 国产波霸爆乳一区二区| 手机看片福利日韩国产| 无码色综合| 国产成年女人特黄特色大片免费| 亚洲国产精品无码久久久秋霞1| 麻豆md0077饥渴少妇| 日本无码一区二区|