編者按
在生成式人工智能數(shù)據(jù)訓練過程中,未經(jīng)版權(quán)人許可的作品使用行為面臨著侵權(quán)風險。本文作者認為,著作權(quán)法應將此種作品使用行為納入合理使用范疇,并從合法來源要求、權(quán)利人“選擇—退出”機制、模型提供者承擔披露訓練內(nèi)容的義務3個方面設置適用限制條件,明晰版權(quán)人權(quán)益與生成式人工智能數(shù)據(jù)訓練合法性的界限。
開發(fā)生成式人工智能模型,需要以海量文本、圖像、視頻等包含受版權(quán)保護的作品作為語料進行數(shù)據(jù)訓練,若未經(jīng)權(quán)利人許可,則面臨版權(quán)侵權(quán)風險。數(shù)據(jù)訓練中的作品使用行為構(gòu)成侵權(quán)抑或合理使用,已成為實踐中相關糾紛的核心爭議焦點。我國合理使用制度采用封閉式的立法技術(shù),現(xiàn)行著作權(quán)法窮盡式列舉的合理使用條款無法涵蓋這一新興場景下的作品使用行為。因此,在期待司法予以能動回應的同時,有必要探索如何革新著作權(quán)法規(guī)則,以明晰版權(quán)人權(quán)益與生成式人工智能數(shù)據(jù)訓練合法性的界限,兼顧版權(quán)保護與產(chǎn)業(yè)發(fā)展。
納入合理使用范疇
筆者認為,基于生成式人工智能數(shù)據(jù)訓練對作品使用具有轉(zhuǎn)換性目的的技術(shù)本質(zhì),可以考慮將其納入合理使用范疇。生成式人工智能是計算機深度學習算法的一大應用,其通過數(shù)據(jù)訓練提取、學習文字、圖像、音符等符號的分布規(guī)律和組合特征。海量數(shù)據(jù)訓練旨在增強生成模型的泛化性能,即確保模型能夠準確處理來自相同數(shù)據(jù)分布的新樣本,使其面對未知用戶指令仍能靈活生成內(nèi)容??梢?,作品作為訓練語料的意義在于提高生成模型類似于人類學習過程中的“理解”能力,而非再現(xiàn)作品的具體表達并供公眾欣賞其藝術(shù)價值。實際上,如果模型因過度記憶訓練語料而輸出與語料實質(zhì)相似的內(nèi)容,將被視為技術(shù)錯誤。
將生成式人工智能數(shù)據(jù)訓練納入合理使用范疇使之合法化,也符合著作權(quán)法促進文學藝術(shù)作品創(chuàng)作與傳播的公共利益要求。經(jīng)過技術(shù)的不斷迭代,人工智能已能生成外觀上與人類創(chuàng)作作品幾乎無異的內(nèi)容,在質(zhì)量上能夠滿足一定程度的欣賞需求。例如,中央廣播電視總臺推出的微短劇《中國神話》,借助“文生圖”“圖生視頻”等生成式人工智能技術(shù)拓展了人們對神話的常規(guī)想象,再通過經(jīng)典意象和當下人類社會的深度鏈接,給觀眾帶來了前所未有的視聽享受。作為人類創(chuàng)作的輔助工具,生成式人工智能可以豐富創(chuàng)作素材,提升創(chuàng)作效率與質(zhì)量,由此促進文藝繁榮。因此,為解決人工智能版權(quán)侵權(quán)風險與其作品使用需求之間的矛盾,合理使用是具有正當性的制度選擇。
合理確定限制條件
由于版權(quán)作品被用于數(shù)據(jù)訓練能夠創(chuàng)造商業(yè)收益,且高質(zhì)量的生成內(nèi)容可能構(gòu)成對版權(quán)作品潛在市場的競爭替代,因此,作品用于數(shù)據(jù)訓練事實上已成為人工智能時代新的作品利用形式,如何保障權(quán)利人的利益是不容忽視的問題。在合理使用的具體規(guī)則中,應當通過適用限制條件的合理設計解決此問題。參考域外的立法探索,可以從合法來源要求、權(quán)利人“選擇—退出”機制、模型提供者承擔披露訓練內(nèi)容的義務3方面進行限制。
合法來源要求意味著作品應當是通過訂閱等合同安排獲得權(quán)利人授權(quán),或是基于合理使用、法定許可等規(guī)則而合法接觸的,否則將作品用于數(shù)據(jù)訓練仍需獲得授權(quán)。通過這一限制,權(quán)利人仍能夠保護其版權(quán)內(nèi)容,通過收取訪問費用等方式保障其經(jīng)濟利益。需注意的是,還應明確權(quán)利人仍能夠采取技術(shù)保護措施。對于已設置反爬蟲措施或防抓取措施的網(wǎng)絡內(nèi)容,經(jīng)破解后接觸作品的,也屬于非法接觸,排除合理使用規(guī)則的適用。
“選擇—退出”機制賦予權(quán)利人主動決定其作品是否參與生成式人工智能數(shù)據(jù)訓練的權(quán)利。這一機制在實踐中已被廣泛應用,成為平衡技術(shù)進步與版權(quán)保護的重要工具。例如,法國音樂作曲家、作者和出版者協(xié)會在2023年10月發(fā)表聲明,稱將選擇退出其曲目作品的機器學習,表示使用其曲目作品須獲得授權(quán),并明確協(xié)商利用條件。再如,某人工智能公司創(chuàng)建了網(wǎng)站,該網(wǎng)站允許創(chuàng)作者選擇退出生成模型的訓練數(shù)據(jù)集,截至2024年4月已有10億余件藝術(shù)作品退出。公眾耳熟能詳?shù)墓雀?、微軟、Open AI公司亦通過擴展爬蟲協(xié)議,為權(quán)利人提供便捷的選項,允許他們將網(wǎng)絡作品排除在相關模型訓練之外。
“選擇—退出”機制介于數(shù)據(jù)訓練使用作品的授權(quán)模式和傳統(tǒng)合理使用模式二者之間,是人工智能時代加強權(quán)利人保護與促進產(chǎn)業(yè)發(fā)展二者間的妥協(xié)方案。在這一機制下,除非權(quán)利人主動行使退出權(quán),否則作品原則上可被用于數(shù)據(jù)訓練而無需個別授權(quán),由此能夠降低版權(quán)許可的高昂成本,也緩解了因獲得許可困難而導致的訓練語料匱乏,以及因此加劇的算法偏見等問題。同時,區(qū)別于傳統(tǒng)合理使用模式偏向絕對性的自由無償使用,版權(quán)人有權(quán)保留其作品被無償?shù)赜糜跀?shù)據(jù)訓練,通過行使選擇退出權(quán)以此換取協(xié)商議價空間,增強在許可談判中的議價能力。“選擇—退出”機制的靈活方案能夠適應技術(shù)變革,既考慮到人工智能時代對數(shù)據(jù)處理的需求,又兼顧權(quán)利人的合法權(quán)益,有助于解決傳統(tǒng)合理使用模式可能對權(quán)利人造成不合理損害的適用困境。
模型提供者承擔披露訓練內(nèi)容的義務,這一要求根植于生成式人工智能數(shù)據(jù)訓練的固有不可追溯特性與日益增長的透明度需求之中。以聊天機器人等大型語言模型為例,在其數(shù)據(jù)訓練過程中,海量的書籍等文本資料被轉(zhuǎn)化為數(shù)十億計的序列數(shù)據(jù),隨后,算法會計算這些序列中每個語詞后續(xù)語詞出現(xiàn)的概率。然而,由于模型最終僅保留了原始語料的概率統(tǒng)計表示形式,因此,基于此類模型輸出的句子、文章等具體內(nèi)容,往往難以追溯其特定的原始來源。
正是基于這一背景,要求模型提供者公開其訓練內(nèi)容,以提升數(shù)據(jù)訓練過程的透明度,顯得尤為重要。這一做法不僅能夠有效保障權(quán)利人對其作品使用情況的知情權(quán),而且還是權(quán)利人有效行使退出權(quán)的重要前提。換言之,權(quán)利人只有充分了解其作品如何被用于模型訓練后,才能做出是否允許其作品被用于此類用途的決定。
此外,訓練內(nèi)容的公開披露還有助于簡化輸出端可能出現(xiàn)的侵權(quán)判斷過程。當監(jiān)督機構(gòu)或權(quán)利人需要判斷某一作品是否被非法地、專門用于生成實質(zhì)性相似的表達時,公開的訓練內(nèi)容將成為重要的參考依據(jù),從而大大降低侵權(quán)判定的難度和復雜性。因此,模型提供者披露訓練內(nèi)容的義務,不僅是透明度和知情權(quán)保障的體現(xiàn),也是維護創(chuàng)作生態(tài)健康、促進技術(shù)創(chuàng)新與版權(quán)保護和諧共生的關鍵一環(huán)。
