本文版權(quán)為《郵電設(shè)計技術(shù)》所有,如需轉(zhuǎn)載請聯(lián)系《郵電設(shè)計技術(shù)》編輯部
摘 要:在倉儲智能化進(jìn)程中,倉儲環(huán)境動態(tài)性與邊緣設(shè)備算力限制影響貨物識別。光照變化、貨物遮擋堆疊及算力不足均制約識別準(zhǔn)確性與效率,為此提出多模態(tài)特征融合動態(tài)自適應(yīng)框架,構(gòu)建RGB-D圖像與激光點云跨模態(tài)特征對齊網(wǎng)絡(luò),融合空間幾何與紋理特征,根據(jù)環(huán)境數(shù)據(jù)實時優(yōu)化動態(tài)權(quán)重;設(shè)計通道剪枝與知識蒸餾協(xié)同的輕量級推理架構(gòu),將模型體積壓縮至原來的30%。實驗結(jié)果表明,多模態(tài)方案比單模態(tài)準(zhǔn)確率提升8.2%,在遮擋場景下準(zhǔn)確率達(dá)96.5%;輕量級模型準(zhǔn)確率為98.1%,推理速度提升2.3倍。
關(guān)鍵詞:倉儲貨物識別;多模態(tài)融合;輕量級模型;動態(tài)環(huán)境適應(yīng)
doi:10.12045/j.issn.1007-3043.2025.06.001
引言
在全球經(jīng)濟(jì)快速發(fā)展的當(dāng)下,倉儲物流行業(yè)正處于智能化轉(zhuǎn)型的關(guān)鍵時期。Statista統(tǒng)計數(shù)據(jù)顯示,2024年全球倉儲市場規(guī)模已高達(dá)3200億美元。在這一龐大的市場體系中,貨物識別的準(zhǔn)確率對倉儲運(yùn)營成本有著至關(guān)重要的影響。研究表明,貨物識別準(zhǔn)確率每提升1%,便能為行業(yè)降低23億美元的年損耗。然而,倉儲環(huán)境的極端復(fù)雜性為貨物識別帶來了巨大挑戰(zhàn)。從光照條件來看,倉儲環(huán)境中的光照強(qiáng)度變化范圍極大,在0~2000lux波動,這種劇烈的光照變化會嚴(yán)重影響基于視覺技術(shù)的貨物識別效果;同時,貨物的堆疊遮擋情況也十分常見,最高遮擋率可達(dá)70%,這使得傳統(tǒng)的視覺識別方案難以準(zhǔn)確獲取貨物的完整信息。此外,邊緣設(shè)備作為倉儲智能化的關(guān)鍵終端,其算力限制也成為制約貨物識別技術(shù)發(fā)展的重要因素。倉儲貨物識別案例如圖1所示。
在現(xiàn)有的貨物識別技術(shù)中,單模態(tài)RGB模型,如廣泛應(yīng)用的YOLOv8,在遮擋場景下的準(zhǔn)確率低于90%,無法滿足工業(yè)級的高精度需求;激光點云方案雖然在幾何結(jié)構(gòu)信息獲取上具有優(yōu)勢,但像PointNet++這類模型存在紋理信息缺失的問題,導(dǎo)致其對貨物的識別不夠全面。而在輕量化模型領(lǐng)域,CPNet等模型雖能將體積壓縮40%,但精度損失卻超過5%,難以平衡模型體積與精度之間的關(guān)系,同樣無法適應(yīng)工業(yè)場景的嚴(yán)格要求。
針對上述問題,本研究提出一種創(chuàng)新的動態(tài)多模態(tài)特征融合與邊緣輕量化協(xié)同方案,通過多方面的技術(shù)創(chuàng)新,突破現(xiàn)有技術(shù)瓶頸。一方面,設(shè)計基于環(huán)境傳感器數(shù)據(jù)的自適應(yīng)權(quán)重機(jī)制,實現(xiàn)動態(tài)多模態(tài)特征對齊。這一機(jī)制打破了傳統(tǒng)靜態(tài)融合的局限,能夠根據(jù)光照變化實時調(diào)整模態(tài)權(quán)重,從而在不同光照條件下都能有效融合多模態(tài)信息;另一方面,提出聯(lián)合損失函數(shù),實現(xiàn)剪枝—蒸餾協(xié)同優(yōu)化。該方法將通道剪枝的結(jié)構(gòu)化稀疏性與知識蒸餾的特征遷移相結(jié)合,在大幅壓縮模型體積的同時,最大限度地保持模型的準(zhǔn)確率。此外,為了更好地適配工業(yè)場景,本研究構(gòu)建了包含異形貨物、反光表面等特殊情況的增強(qiáng)數(shù)據(jù)集,使得模型在遮擋場景下的準(zhǔn)確率達(dá)到96.5%,滿足ISO 2382-27中的工業(yè)實時性標(biāo)準(zhǔn)(延遲<50ms)。本研究使分揀效率提升了27%,為《物流領(lǐng)域計算機(jī)視覺應(yīng)用白皮書》提供了核心技術(shù)支撐,推動了倉儲智能化技術(shù)的實際應(yīng)用與發(fā)展。