咨詢電話(微信同號)
18905829229

小紅書數(shù)據(jù)湖遷至阿里云 遷移數(shù)據(jù)達(dá)500PB

來源:網(wǎng)絡(luò)轉(zhuǎn)載作者:環(huán)球網(wǎng)科技頻道時間:2024-11-08

11月6日,經(jīng)過一年奮戰(zhàn),小紅書已把業(yè)界體量最大的數(shù)據(jù)湖0故障遷上阿里云。據(jù)統(tǒng)計,該項目共有1500人參與,遷移數(shù)據(jù)500PB。


作為中國頭部互聯(lián)網(wǎng)公司之一,小紅書月活已過3億,其數(shù)據(jù)湖存儲了過去11年的所有原始數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。近年來,隨著業(yè)務(wù)的高速增長,小紅書在線處理數(shù)據(jù)的需求不斷增加,同時離線處理所積累的歷史問題,也會在未來的切換中帶來更多成本與風(fēng)險。


為此,2023年11月,小紅書發(fā)起遷云項目——計劃一年內(nèi),把小紅書的數(shù)據(jù)湖搬上阿里云。


遷移至阿里云上后,數(shù)據(jù)湖可通過多個OSS Bucket支持納入統(tǒng)一資源池,實現(xiàn)多個Bucket共享資源池內(nèi)的OSS吞吐及QPS能力。這樣的流控能力在面向小紅書復(fù)雜業(yè)務(wù)場景,可靈活調(diào)配資源,高效利用吞吐性能,降低不同業(yè)務(wù)租戶間的互相影響。阿里云原生HDFS+DLA元數(shù)據(jù)可實現(xiàn)無縫對接Hadoop EMR體系,支持元數(shù)據(jù)線性擴(kuò)展能力,輕松應(yīng)對小紅書數(shù)百PB數(shù)據(jù)下的元數(shù)據(jù)線性增長。


較于過往業(yè)界體量最大的案例,小紅書的本次遷移的數(shù)據(jù)體量更大。


據(jù)介紹,小紅書的遷云項目經(jīng)歷了三個階段。第一步,項目組首先解決標(biāo)準(zhǔn)問題,然后根據(jù)標(biāo)準(zhǔn)進(jìn)行治理;第二步,完成治理后,項目在2024年5月正式進(jìn)入雙跑階段。把數(shù)據(jù)拷貝到阿里云上,兩邊同時跑數(shù),驗證正確性與及時性;第三步,2024年8月,項目結(jié)束雙跑,進(jìn)入割接階段。阿里云團(tuán)隊全程在現(xiàn)場保障,順利完成了割接。


2024年11月,小紅書遷云項目正式宣告結(jié)束。在0故障的情況下,遷移數(shù)據(jù)500PB,任務(wù)11萬,參與人數(shù)1500人,涉及部門40多個。


聲明:文章來源于網(wǎng)絡(luò)轉(zhuǎn)載,是作者獨立觀點,不代表浙北數(shù)據(jù)立場
如有不合適或侵權(quán)等問題請及時聯(lián)絡(luò)我們0572-2100075,會第一時間刪除,保障作者權(quán)益
?

微信公眾號