OpenAI公开网页爬虫工具:资源枯竭压力下 人工智能产业的数据版权困局
网页爬虫,长期存在于互联网产业中的灰色地带,作为一种网络信息采集工具,爬虫软件既可以帮助使用者便捷地大范围获取网页数据,也常常因涉嫌侵犯平台方数据资产与用户个人隐私而遭到质疑。
近日,OpenAI公司新发布的网络爬虫工具GPTBot则将这一的数据获取渠道再次推上风口浪尖,据其发布的信息显示,GPTBot将被用于抓取网页数据,以训练GPT-4或GPT-5,提升其能力与准确性。
(资料图片)
而OpenAI这一举动再次引发外界关于人工智能训练“数据荒”的猜测,此前,多位业界人士与学术机构警告称高质量的人工智能训练文本将在几年内消耗殆尽——若非需求迫切,本就在聚光灯下的OpenAI似乎并不需要公开这一本就饱受争议的数据工具。
而业界同样对OpenAI的进一步动作高度关注,如果该举动并未引起平台与监管的激烈反弹,是否意味着其他AI公司同样可以依葫画瓢应用爬虫获取训练数据?在Reddit已率先宣布对第三方API接口收费后,AI产业与内容平台又将走向更为广泛的对立抑或合作?
“数据荒”会到来吗
作为人工智能发展的三大基本要素(算法、算力、数据)之一,训练用数据的重要性随着AI产业的高速发展被进一步凸显,具备高质量、大规模、丰富性的训练数据正被快速消耗。
2022年10月,Epoch AI Research团队发布的论文指出,当前语言数据集数量正以50%的速度增长,而原始数据的增长速度则为7%,如果数据使用效率不能得到大幅度提升或有新的数据源出现,用于语言模型训练的数据可能将于2030年至2050年之间耗尽,其中高质量语言数据预计于2023至2027年耗尽。
而当前开拓和丰富数据库的各项努力依然未取得显著进展,此前业界曾寄希望于使用一个大模型为另一个大模型生辰训练用数据,但Ilia Shumailov等学者的研究则发现,在训练中使用模型生成的内容将导致进行新训练的模型出现不可逆的缺陷,即“递归的诅咒”,人类生成的文本内容特别是人类与人工智能的交互数据在大模型训练中依然必要。
“书籍、期刊论文作为人类正式出版物,其数据信息已经做了很好的质量控制,但这部分数据对大模型来说基本已经消耗完了,因此到网页等公开渠道获取数据成为主要数据来源。”香港科技大学(广州)协理副校长熊辉教授在接受南方财经全媒体记者采访时指出,相较于谷歌、微软等拥有自身网络平台与长期数据积累的互联网巨头,随着书籍等公共文本数据存量见底,各互联网平台建立藩篱反对爬取自身平台数据或深层数据,OpenAI等单纯以AI研发为主要业务的训练数据枯竭可能将比上述Epoch AI Research的预测来得更早。
“基于当前大模型企业的数据训练和数据消化能力,在穷尽其本身能力所能获取的人类生产的数据后,可能到2025年这些企业就将面临无人类生成数据可用的问题。”熊辉表示。
而这或许也是OpenAI急于将网页爬虫公开化的原因。其官方发布的论文显示,早在GPT-3.0训练所使用的753GB数据中,除21GB书籍数据与101GB期刊数据,其余数据来源中11.4GB的维基百科数据、50GB的Reddit(海外社交平台)连接数据与570GB的Common Crawl(免费网页数据库,主要内容来源于网页爬虫)都与网页相关,而书籍与期刊的数据库存与增长有限,未来网页数据在大模型训练数据集中所占比重或将进一步提升。
但网页数据存在的问题也非常明显,作为相对公开的数据来源,虽然其在可获得性与数量方面较为理想,但网页本身的内容质量却良莠不齐,且随着人工智能在C端的大规模应用,越来越多本就是AI生成的文本、图片、视频也更加容易导致“递归的诅咒。”
熊辉指出,大模型使用AI生成的数据而可能产生的崩溃或偏见,本质上来源于其训练中的自我增强循环,即模型训练发生了样本偏移或训练分布偏移,陷入到一种错误或有限的思维定势中,形成局部的信息茧房现象。在人工智能训练数据来源方面,数据隐私和数据层面的缺陷导致的偏见与伦理问题,也是当前产业面临的主要问题。
他进一步表示,要避免因数据问题而导致的模型崩溃或偏见,通常最普遍的做法时引入多元的训练数据,即便是同一类型的数据,不同的数据来源也将一定程度上避免数据使用陷入自我增强循环,同时辅助以对抗生成等技术来判断数据质量。
爬虫争议
但作为一种大规模的网页信息爬取工具,爬虫在互联网产业中的使用往往伴随着巨大争议,网站所有者认为其攫取了自身的平台价值,在网站上发布内容的用户则面临版权与个人隐私权益被侵害的风险。
在美国最为知名的爬虫软件案件之一发生在微软旗下职业社交平台LinkedIn与数据分心公司HiQ之间,后者通过爬取前者数据并进行处理后将分析结果出售给相关企业获利,双方关于第三方是否有权爬取网站信息展开长达五年的诉讼拉锯。最终,该案以法院裁定HiQ违反LinkedIn用户协议,赔偿50万美元并禁止其未经同意自动化访问复制数据告终。
今年4月,作为OpenAI ChatGPT、谷歌Bard等多个公司大语言模型的重要数据来源,美国社交媒体平台Reddit宣布将向访问其应用程序编程接口的公司收费,不再免费为科技巨头提供免费的数据内容。随后,Twitter(现名X)CEO马斯克亦公开指责微软非法使用Twitter数据训练AI模型,并声称将就此起诉微软。
为应对可能的合规争议,OpenAI在发布GPTBot时也为网站所有者提供了屏蔽爬虫的方法——只要在网站的robots.txt(爬虫协议)中添加对应代码,即可禁止或允许GPTBot访问爬取部分网站内容。
但这种把球踢给网站所有者的做法也并不能完全避免合规风险。一个最为突出的问题是,网站只是网络信息的展示平台,网站所有者并不天然具有其他网民发布在网站上信息内容的所有权,即便爬虫方取得网站所有者同意,其爬取网站信息的行为依然可能触犯内容发布者的版权权益。
王新锐表示,相关信息的安全程度将取决于OpenAI是否将对相关信息采取有效的安全技术保障措施,如加密等,但这也并不能完全排除过滤后数据爬取仍可能获取一定个人可识别信息的可能性。
近年来,各国也在不断加强与细化人工智能训练数据的合规要求。例如我国最新发布的《生成式人工智能服务管理暂行办法》中也明确提出“生成式人工智能服务提供者应依法开展预训练、优化训练等训练数据处理活动,包括使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权”等要求。
除版权问题外,个人隐私同样是网页爬虫在获取数据时难以避免的敏感问题,虽然OpenAI承诺GPTBot爬取的网页将被过滤筛选以“去除已知包含个人信息的来源”,以试图从网站类型与源头控制对个人可识别信息的收集,但在具体实践中技术的有效程度仍有待检验。
王新锐表示,相关信息的安全程度将取决于OpenAI是否将对相关信息采取有效的安全技术保障措施,如加密等,但这也并不能完全排除过滤后爬虫仍可能获取一定个人可识别信息的可能性。
应对数据困局
正如前文所言,作为近年乘AI热潮兴起而崭露头角的新兴公司,数据积累将成为OpenAI在未来产业竞争中重要的短板,而在进一步获取数据的过程中,来源与流程合规以及愈加严格的监管也将成为其不得不面临的两难。
在这样的背景下,效仿其他的互联网平台的合规举措,在法规与行业框架的模糊地带尽可能拓展数据来源,成为包括OpenAI在内大多数人工智能开发者的选择。
例如,提供给网站所有者爬虫屏蔽方式的举措,也是承袭自其他互联网公司的既有做法。在谷歌官网,同样对其使用的一系列爬虫程序和用户代理字符串也均进行了公示说明,明确网站所有者可以通过将Googlebot, Googlebot Image, Googlebot News等爬虫程序添加到站点robots. txt中来禁止其访问网站。
但正如此前OpenAI已陷入艺术家与作家就版权问题对其发起的诉讼,相同的做法无论在美国或是其他国家,都面临着不容忽视的合规问题。
王新锐表示,相较而言,我国的法律法规显然对数据爬取采取了更严格的监管路径。在我国数据爬取受到多部法律法规的监管,一旦超过合法收集、利用的限度,数据爬取将存在侵犯个人信息权益、侵犯知识产权、不正当竞争以及危害计算机信息系统类的违法甚至犯罪风险,需承担相应民事、行政乃至刑事责任。
而随着数据资源枯竭的危机一步步逼近,方兴未艾的人工智能产业在加足马力发展的同时,又该如何应对模型“养料”供应不足这一现实问题?
熊辉指出,在产业发展初期,各大公司肯定会穷尽一切可能的方法获取其能够接触的所有数据,早期的数据获取方式在市场驱动下必然是粗犷式的;而随着数据资源逐渐耗尽,下一步企业的数据利用也会在管理驱动下更为精细化数据质量控制,例如做更为细致的数据标注与清洗;在此之后,如果想进一步挖掘数据价值,则有赖于进一步创新,其中包括数据来源与数据利用方式的创新,例如通过拆解流程、划分步骤的方式,丰富数据内容的维度。
“打个比方,对于一年级还未接触复杂乘除计算的小朋友,51÷3的数学问题比较复杂,但是将其拆解为(30+21)÷3后,就可以将其分为30÷3与21÷3两个九九乘法表可以解决的简单问题,与纯粹由AI生成的数据不同,这一基于人类生成数据拆解所产生的步骤数据,在AI训练中也是有价值的。”熊辉表示,通过人工或AI辅助,数据资源的进一步开发与挖掘将是缓解数据枯竭问题的主要途径。
近日,继日本画师、好莱坞从业者等群体后,多家海外媒体机构也加入呼吁保护生成式人工智能训练数据版权的行列中。在法新社、欧洲新闻图片社等媒体签署的一封公开信中,其督促全球立法者考虑制定法规,增强人工智能训练数据来源透明度,并在获取数据前征求权利人同意。
随着AI产业的进一步发展及各行业和群体对数据价值与权利意识的觉醒,如何构建数据生产方、持有方与数据使用方之间的权利义务关系,成为从监管到每一个互联网参与者都需要面对的现实问题。
(文章来源:21世纪经济报道)
标签:
精彩推送
- OpenAI公开网页爬虫工具:资源枯竭压力下 人工智能产业的数据版权困局
- 合肥市四部门联合约谈网约车平台企业:严格做到明码标价 规范促销行为
- 新时代中国调研行·长江篇丨南京港:绿色转型激活油港新生态
- 上市协会助力吴中区“金苗企业”资本对接会成功举办
- 重庆调整优化住房公积金使用政策
- 暑期档票房时隔四年重回“百亿级” 中国电影市场强劲复苏丨行业风口
- 北京房市韧性十足 首开股份产品为王砥砺前行
- 20大悦01、22绵投03、22晋桥Y2今日成交额位列交易所信用(非金)债券前三
- “江北反诈卫士小程序”上线了 会自动报警还可防家人被骗
- 券商ETF全线回调 最高下跌4.67%;多只港股ETF规模突破百亿元;冯明远调仓动作明显
- 农业农村部再派工作组赴东北四省区开展台风防范指导
- 有主播月入上百万,淘宝加速内容化
- 河北两部门联合发布山洪灾害气象预警
- 山东临沂:一碗糁汤里的沂蒙情怀
- 金融“活水”浇灌实体经济 东莞今年力争新增制造业贷款500亿元
- 价格战时代来临,咖啡行业打响淘汰赛
- 内蒙古上半年实现旅游收入1185亿元
- 多家银行借助供应链核心企业为民营企业提供高效融资服务
- 财政部、应急管理部预拨14.6亿元中央自然灾害救灾资金 支持京津冀及黑龙江、吉林5省(市)防汛救灾工作
- 夏威夷野火遇难者迅速攀升 成美国近年来最致命火灾
- 商务部部长王文涛出席中国-南非企业贸易对接会暨签约仪式
- 逆势投资拿下银桥、来思尔乳业 君乐宝上市再引猜想
- 赣州南康区碧桂园房地产开发有限公司成被执行人 执行标的逾900万元
- 极氪001首次直接降价 下探至26.9万或成同类产品中价格最低
- 半导体设备材料ETF(159516)跌超1.6% 成交额超4000万元 盘中溢价交易
- 电影《孤注一掷》票房破11亿
- 成都10宗地仅3宗摇号成交 热度明显下降
- ETF龙头华夏基金再推SmartBeta策略ETF新作
- 武汉启动热干面专项整治行动
- 广州:将进一步出台促进民间投资相关政策措施
- 宝骏云朵纯电动车上市 与大疆车载联合打造“灵犀智驾2.0”系统
- 山东发布22条措施为实体经济降成本
- 【新华财经独家】集运指数期货近日上市
- 2023年上半年理财产品整体收益稳健
- 哈尔滨铁路部门恢复部分列车运行
- 甘肃省8市州启动洪水防御Ⅳ级应急响应
- ETF龙头华夏基金再推SmartBeta策略ETF新作
- 500万元!重庆丰华股份收到迁入注册地政府补助
- 重庆:已出售的住房及其结清的商业性个人住房贷款记录不作为住房套数认定依据
- 中国煤炭地质总局与中国能建签署战略合作协议
- 软件开发、IT服务板块震荡调整 同花顺跌超5% 金融科技ETF(516860)交投活跃丨ETF观察
- 重庆市公积金新政策发布!中心城区多子女家庭租房每人最高可提取2700元/月
- 重庆调整优化住房公积金政策 加大对多子女缴存人家庭租房支持力度
- 生态环境部:加强汛期饮用水水源环境监管工作
- 专访马上消费党委书记曹景泉:科技能力支撑马上消费站在打击金融黑产一线
- 包装纸行业迎来淡旺季转换点 行业盈利有望实现修复
- 重庆自热火锅热销东南亚 今年前7个月出口增长244%
- 今日南财市场情绪指数为55.4 市场投资热度处于中立水平
- 海关总署署长俞建华到陕西调研
- 猛男营销获6.6亿次播放,新茶饮在抖音又开战了
- 北京:规范老旧小区物业管理 打造舒适宜居环境
- 即日成交比例爆长!窗口期买家爽快出手广州南 CBD
- 河北防汛救灾情况最新通报:因暴雨洪水死亡29人,直接经济损失958.11亿元
- 中国人民银行广州分行推动横琴粤澳深度合作区资金“电子围网”建设取得新进展
- 又一医院官员被查!
- 医药反腐|孙宁玲:坚决拥护医疗反腐,但反对一概污名化学术会议
- 近视防控骗局:新蹿红的医疗神器,医院售价三四千,山寨货十几元就能买,临床数据却羞于启齿
- Ralph Lauren第一财季销售额同比仅增0.4%
- 人民银行今日开展20亿元逆回购操作 公开市场实现零投放零回笼
- 库迪狂开5000家店:升温的价格战,躺枪的同行
- “深圳创投日”圆桌对话:LP和GP边界趋于模糊,创投格局如何谋变?
- 今日投资前瞻:出境游进一步放开 券商及证券IT迎政策红利
- 机构:二季度全球云基础设施服务支出增长16%至724亿美元
- 人民银行今日开展20亿元逆回购操作 公开市场实现零投放零回笼
- 今日投资前瞻:出境游进一步放开 券商及证券IT迎政策红利
- 本轮首家爆雷房企花样年复牌 过去两年亏损168亿元
- 昨日融资余额减少6.17亿元 非银金融行业净买入11亿元
- 广州天河冼村复建区迎新进展!六期回迁房封顶
- 8月全国总票房已突破30亿元
- 文旅行业苦“黄牛”久矣 消失的门票到底去哪儿了?
- 新白广城际预计年底前全线开通运营,增城到白云机场最快20分钟可达
- 黄埔旧改又有新规!合作企业联合体成员放宽至5个
- 中汽协:1-7月比亚迪出口10万辆 同比增长7.9倍
- 前7月广东民营企业进出口2.74万亿元 同比增长6%
- 社保基金二季度新建仓股票
- 港媒:长实油塘亲海駅II累收逾3.3万票 成为香港新盘票王
- 中信证券:预计汽车消费潜力在政策刺激下将继续释放
- 中信证券:后市预计新股将有序扩容 注册制对流动性影响有限
- 8月11日盘前重要市场新闻
- 意见征求中 成都公积金或可按月直付房租
- 中金公司:7月存量房市场继续降温 静待政策提振
- 中信建投:预计欧洲2023年电车销量310-320万辆
- 机构:恶劣天气和黑海紧张局势威胁欧洲粮食库存
- “资本+科创+产业” 济南扬帆生物医药产业新蓝海
- 重拳出击!国家安全机关破获美国中央情报局间谍案
- 我国汽车出口首超日本 新能源车产销增速均超30%!业绩翻倍概念股来了 昔日千亿龙头砸出“黄金坑”
- 中国铁建:国内首条中低速磁浮旅游专线全线铺轨完成
- 重拳出击!国家安全机关破获美国中央情报局间谍案
- 海通证券总经理李军:携手助力山东生物医药产业高质量发展
- 操盘必读|“100+1”!沪深交易所出利好;北京等多地公布医药反腐举报方式
- 专家:应对挑战仍有充足货币政策空间
- 示范区税收司法共治 解税费执行难执行慢
- 专家:应对挑战仍有充足货币政策空间
- 上海两年颁布18部浦东新区法规 走出立法引领推动改革创新的新路子 浦东“立法试验田”释放改革效能
- 消费现向好趋势 见实效还需政策“续航”
- 广州营商环境改革方案6.0版发布 包括五个方面39项任务 其中提出将建设引领产业能级提升的“四大高地”
- 广东海关出台20条措施服务外贸高质量发展 支持扩大出口 助企减负增效
- “麦芽香气”中的“文旅人气”
- 业内人士:预期降准最快将在三季度落地
- 从第一到垫底 这个中部省会怎么了?