本發(fā)明專利技術(shù)公開(kāi)了一種基于大數(shù)據(jù)的假幣流通分析方法及裝置,屬于大數(shù)據(jù)分析領(lǐng)域,解決了假幣流通分析的效率較低、準(zhǔn)確度較低的問(wèn)題。其技術(shù)要點(diǎn)包括:獲取假幣的收繳數(shù)據(jù),訓(xùn)練假幣形成方式分類(lèi)模型,獲取假幣形成方式標(biāo)簽,對(duì)機(jī)制假幣獲取時(shí)空傳播特征,并進(jìn)行流通路徑分析,生成流通路徑地理圖。本發(fā)明專利技術(shù)利用大數(shù)據(jù)技術(shù),提高了數(shù)據(jù)處理能力,并充分挖掘收繳數(shù)據(jù)蘊(yùn)含的假幣傳播規(guī)律,能提高假幣流通分析的工作效率及分析結(jié)果的準(zhǔn)確度。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于大數(shù)據(jù)的假幣流通分析方法及裝置
本專利技術(shù)涉及大數(shù)據(jù)分析領(lǐng)域,尤其涉及一種基于大數(shù)據(jù)的假幣流通分析方法及裝置。
技術(shù)介紹
假幣的制造和流通不僅給人民財(cái)產(chǎn)帶來(lái)?yè)p失,也影響著金融秩序和經(jīng)濟(jì)穩(wěn)定,更是給我國(guó)在國(guó)際經(jīng)濟(jì)貿(mào)易中的形象帶來(lái)負(fù)面影響。通常假幣的主要犯罪方式有兩種,一種是機(jī)制假幣犯罪,采用大型機(jī)具,版源統(tǒng)一,生產(chǎn)規(guī)模大,與普通商品的流通環(huán)節(jié)一致,包括了制造、分銷(xiāo)、銷(xiāo)售、使用等環(huán)節(jié),范圍涉及多個(gè)地理區(qū)域,社會(huì)危害大,是國(guó)家重點(diǎn)打擊的犯罪活動(dòng);另一種是打印假幣犯罪,使用電腦打印機(jī)等小型設(shè)備,方法簡(jiǎn)單,電子版式多樣,一般涉及制造、運(yùn)輸、使用等環(huán)節(jié)。打擊假幣犯罪,只有從源頭到末端實(shí)現(xiàn)全鏈條打擊,才能從根本上遏制假幣犯罪。為了實(shí)現(xiàn)全鏈條打擊,準(zhǔn)確高效獲取假幣流通路徑對(duì)于相關(guān)單位制定行動(dòng)決策進(jìn)而精確打擊制造、分銷(xiāo)、運(yùn)輸、使用假幣的犯罪行為十分必要。由于流通路徑與假幣形成方式存在密切關(guān)系,不同形成方式的假幣其流通模式存在差異,因此對(duì)流通假幣進(jìn)行形成方式區(qū)分是必要步驟。對(duì)假幣區(qū)分形成方式后,分別對(duì)機(jī)制假幣和打印假幣進(jìn)行流通分析,就可以發(fā)現(xiàn)各自的流通規(guī)律。本專利技術(shù)公開(kāi)的流通分析方法主要針對(duì)機(jī)制假幣。現(xiàn)有技術(shù)一般采用物理檢驗(yàn)的手段,人工對(duì)假幣票樣的油墨、紙張、制版、圖案的差異點(diǎn)進(jìn)行綜合分析,根據(jù)經(jīng)驗(yàn)來(lái)判斷假幣的形成方式和可能的流出區(qū)域。由于需要以票樣為基礎(chǔ),存在票樣獲取不及時(shí)、不全面的特點(diǎn),且分析票樣數(shù)量有限,無(wú)法應(yīng)對(duì)百萬(wàn)級(jí)數(shù)據(jù)規(guī)模,因此假幣流通分析的工作效率較低且準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)針對(duì)現(xiàn)有技術(shù)的問(wèn)題,提供了一種基于大數(shù)據(jù)的假幣流通分析方法,用以提高工作效率及分析結(jié)果的準(zhǔn)確度,該方法包括:獲取假幣的收繳數(shù)據(jù),收繳數(shù)據(jù)至少包括收繳日期,收繳金融機(jī)構(gòu)屬性,票樣屬性;獲取假幣形成方式分類(lèi)模型,基于已知形成方式的假幣標(biāo)注樣本構(gòu)建特征向量并訓(xùn)練分類(lèi)模型;獲取假幣形成方式標(biāo)簽,應(yīng)用假幣形成方式分類(lèi)模型對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),并篩選出機(jī)制假幣;獲取機(jī)制假幣的時(shí)空傳播特征,至少包括收繳區(qū)域、首次收繳日期;根據(jù)機(jī)制假幣的時(shí)空傳播特征進(jìn)行流通路徑分析,得到機(jī)制假幣在區(qū)域間的流通路徑;根據(jù)機(jī)制假幣的流通路徑,生成機(jī)制假幣流通路徑地理圖。進(jìn)一步的,收繳數(shù)據(jù)是金融機(jī)構(gòu)獲取假幣時(shí)記錄的數(shù)據(jù)信息,收繳數(shù)據(jù)中的收繳金融機(jī)構(gòu)屬性包括金融機(jī)構(gòu)名稱、經(jīng)緯度位置、所在地址的省市級(jí)行政區(qū)劃,收繳數(shù)據(jù)中的票樣屬性至少包括假幣幣種、券別、版別、面值、冠字號(hào)碼。進(jìn)一步的,假幣形成方式分類(lèi)模型,可對(duì)輸入的特征向量輸出相應(yīng)的分類(lèi)結(jié)果,包括第一類(lèi)分類(lèi)結(jié)果和第二類(lèi)分類(lèi)結(jié)果。第一類(lèi)分類(lèi)結(jié)果是機(jī)制假幣,第二類(lèi)分類(lèi)結(jié)果是打印假幣。獲取假幣形成方式分類(lèi)模型包括的步驟有:獲取第一類(lèi)假幣和第二類(lèi)假幣的訓(xùn)練樣本,包括樣本的收繳數(shù)據(jù)和樣本標(biāo)簽,樣本標(biāo)簽包括第一類(lèi)假幣機(jī)制假幣和第二類(lèi)假幣打印假幣。獲取假幣訓(xùn)練樣本的特征向量。選擇分類(lèi)算法,調(diào)參并迭代訓(xùn)練后得到最優(yōu)的分類(lèi)模型。進(jìn)一步的,假幣的特征向量,從收繳數(shù)據(jù)計(jì)算得到,至少包括收繳數(shù)量,同系列冠字號(hào)碼的數(shù)量,同系列冠字號(hào)碼總收繳量,同系列冠字號(hào)碼中的總收繳量與最小收繳量之間比值,冠字號(hào)碼的活躍時(shí)長(zhǎng)特征。同系列冠字號(hào)碼指冠字號(hào)碼前四位相同但后六位不完全相同的冠字號(hào)碼。收繳數(shù)量是某一冠字號(hào)碼假幣在全國(guó)各地總的收繳張數(shù),同系列冠字號(hào)碼的數(shù)量是與某一冠字號(hào)碼同系列的所有冠字號(hào)碼的數(shù)量,同系列冠字號(hào)碼總收繳量是同系列包含的假幣在全國(guó)各地總的收繳張數(shù),同系列冠字號(hào)碼中最小收繳量是該系列中收繳張數(shù)最小的收繳量。冠字號(hào)碼的活躍時(shí)長(zhǎng)是指冠字號(hào)碼相同的假幣中,最早的收繳日期與最晚的收繳日期之間的日期間隔。進(jìn)一步的,模型迭代訓(xùn)練使用的損失函數(shù)為交叉熵?fù)p失函數(shù):L(y,p)=-(ylog(p)+(1-y)log(1-p))其中y∈{0,1}表示真實(shí)標(biāo)簽,1表示機(jī)制假幣,0表示打印假幣;p=Pr(y=1),p∈[0,1]表示模型預(yù)測(cè)標(biāo)簽為1(機(jī)制假幣)的概率。最優(yōu)模型的評(píng)價(jià)指標(biāo)為F1分?jǐn)?shù)。在多組參數(shù)對(duì)應(yīng)的模型中,最優(yōu)分類(lèi)模型是F1分?jǐn)?shù)最高的模型。其中TP表示實(shí)際為機(jī)制假幣被預(yù)測(cè)為機(jī)制假幣的樣本數(shù)量,F(xiàn)P表示實(shí)際是打印假幣被預(yù)測(cè)為機(jī)制假幣的樣本數(shù)量,F(xiàn)N表示實(shí)際是機(jī)制假幣被預(yù)測(cè)為打印假幣的樣本數(shù)量。進(jìn)一步的,獲取假幣形成方式標(biāo)簽,應(yīng)用形成方式分類(lèi)模型對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),分類(lèi)的結(jié)果包括第一類(lèi)分類(lèi)結(jié)果機(jī)制假幣和第二類(lèi)分類(lèi)結(jié)果打印假幣。機(jī)制假幣一般制造規(guī)模大,社會(huì)危害大,從制造到分銷(xiāo)、銷(xiāo)售、使用等環(huán)節(jié)涉及流通路徑多,是本專利技術(shù)提供的假幣流通分析方法優(yōu)先分析的一類(lèi)假幣,因此篩選出機(jī)制假幣進(jìn)行后續(xù)分析。進(jìn)一步的,獲取機(jī)制假幣的時(shí)空傳播特征,包括假幣的收繳區(qū)域,在收繳區(qū)域的首次收繳日期。所述收繳區(qū)域可根據(jù)分析粒度確定,可以為省份、城市、區(qū)縣,首次收繳日期是指在該收繳區(qū)域內(nèi)所有假幣的收繳日期中最早的日期。進(jìn)一步的,根據(jù)機(jī)制假幣的時(shí)空傳播特征進(jìn)行流通路徑分析,目的是發(fā)現(xiàn)各區(qū)域之間的假幣流通路徑,即假幣是如何在區(qū)域之間伴隨人的活動(dòng)轉(zhuǎn)移的,包括的步驟有:依照時(shí)間維度,針對(duì)機(jī)制假幣中每一冠字號(hào)碼假幣,以首次收繳日期先后順序?qū)Τ霈F(xiàn)區(qū)域進(jìn)行排序;結(jié)合空間維度,將時(shí)間順序存在前后順序的區(qū)域依次組合成流通路徑關(guān)系對(duì);按照流通路徑關(guān)系對(duì)的日期間隔、距離間隔,篩選有效的流通關(guān)系對(duì),得到冠字號(hào)碼的流通路徑;對(duì)流通路徑相同的冠字號(hào)碼進(jìn)行匯總,得到區(qū)域間的流通路徑。可選的,對(duì)于區(qū)域間流通路徑涉及的冠字號(hào)碼數(shù)目超過(guò)一定閾值的流通路徑,可標(biāo)記為重點(diǎn)關(guān)注路徑。此處的閾值為冠字號(hào)碼總數(shù)的60%。可選的,根據(jù)假幣的流通路徑,生成的流通路徑地理圖,包括:某一冠字號(hào)碼的流通路徑地理圖,用實(shí)線表示區(qū)域之間的流通路徑,實(shí)線的寬度表示流通的假幣數(shù)量,數(shù)量越大,寬度越大;區(qū)域之間的假幣流通路徑地理圖,用實(shí)線表示區(qū)域之間的流通路徑,實(shí)線的寬度表示流通路徑相同的冠字號(hào)碼的數(shù)量,數(shù)量越多,寬度越大。可選的,地理圖的底圖是國(guó)內(nèi)地圖,可縮放顯示級(jí)別,流通路徑使用帶箭頭的實(shí)線繪制,起點(diǎn)為假幣的流出區(qū)域,終點(diǎn)為假幣的流入?yún)^(qū)域。本專利技術(shù)實(shí)施例還提供了一種基于大數(shù)據(jù)的假幣流通分析裝置,包括:數(shù)據(jù)獲取模塊,用于獲取假幣的收繳數(shù)據(jù),收繳數(shù)據(jù)至少包括收繳日期,收繳金融機(jī)構(gòu)屬性,票樣屬性;分類(lèi)模型訓(xùn)練模塊,用于訓(xùn)練假幣形成方式分類(lèi)模型,基于已知形成方式的假幣標(biāo)注樣本構(gòu)建特征向量并訓(xùn)練分類(lèi)模型。假幣形成方式識(shí)別模塊,用于獲取假幣形成方式標(biāo)簽,應(yīng)用形成方式分類(lèi)模型對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),并篩選出機(jī)制假幣。時(shí)空傳播特征構(gòu)建模塊,用于獲取機(jī)制假幣的時(shí)空傳播特征,至少包括收繳區(qū)域、收繳日期;流通路徑分析模塊,用于根據(jù)機(jī)制假幣的時(shí)空傳播特征進(jìn)行流通路徑分析,得到機(jī)制假幣在區(qū)域間的流通路徑;流通路徑地理圖生成模塊,用于根據(jù)機(jī)制假幣的流通路徑,生成流通路徑地理圖。本專利技術(shù)實(shí)施例還提供一種計(jì)算機(jī)本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于大數(shù)據(jù)的假幣流通分析方法,其特征在于,包括:/n獲取假幣的收繳數(shù)據(jù),收繳數(shù)據(jù)至少包括收繳日期,收繳金融機(jī)構(gòu)屬性,票樣屬性;/n訓(xùn)練假幣形成方式分類(lèi)模型,基于已知形成方式的假幣標(biāo)注樣本構(gòu)建特征向量并訓(xùn)練分類(lèi)模型;/n獲取假幣形成方式標(biāo)簽,應(yīng)用假幣形成方式分類(lèi)模型對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),并篩選出機(jī)制假幣;/n獲取機(jī)制假幣的時(shí)空傳播特征,至少包括收繳區(qū)域、首次收繳日期;/n根據(jù)機(jī)制假幣的時(shí)空傳播特征進(jìn)行流通路徑分析,得到機(jī)制假幣在區(qū)域間的流通路徑;/n根據(jù)機(jī)制假幣的流通路徑,生成機(jī)制假幣流通路徑地理圖。/n
【技術(shù)特征摘要】
1.一種基于大數(shù)據(jù)的假幣流通分析方法,其特征在于,包括:
獲取假幣的收繳數(shù)據(jù),收繳數(shù)據(jù)至少包括收繳日期,收繳金融機(jī)構(gòu)屬性,票樣屬性;
訓(xùn)練假幣形成方式分類(lèi)模型,基于已知形成方式的假幣標(biāo)注樣本構(gòu)建特征向量并訓(xùn)練分類(lèi)模型;
獲取假幣形成方式標(biāo)簽,應(yīng)用假幣形成方式分類(lèi)模型對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),并篩選出機(jī)制假幣;
獲取機(jī)制假幣的時(shí)空傳播特征,至少包括收繳區(qū)域、首次收繳日期;
根據(jù)機(jī)制假幣的時(shí)空傳播特征進(jìn)行流通路徑分析,得到機(jī)制假幣在區(qū)域間的流通路徑;
根據(jù)機(jī)制假幣的流通路徑,生成機(jī)制假幣流通路徑地理圖。
2.如權(quán)利要求1所述的方法,其特征在于:
所述收繳數(shù)據(jù)是金融機(jī)構(gòu)獲取假幣時(shí)記錄的數(shù)據(jù)信息,所述收繳金融機(jī)構(gòu)屬性至少包括金融機(jī)構(gòu)名稱、經(jīng)緯度位置、所在的省市縣級(jí)行政區(qū)劃;所述票樣屬性包括假幣幣種、券別、版別、面值、冠字號(hào)碼。
3.如權(quán)利要求1所述的方法,其特征在于,訓(xùn)練假幣形成方式分類(lèi)模型包括的步驟有:
獲取第一類(lèi)假幣和第二類(lèi)假幣的訓(xùn)練樣本,包括樣本的收繳數(shù)據(jù)和樣本標(biāo)簽,樣本標(biāo)簽包括第一類(lèi)假幣機(jī)制假幣和第二類(lèi)假幣打印假幣;
獲取假幣訓(xùn)練樣本的特征向量;
選擇分類(lèi)算法,調(diào)參并迭代訓(xùn)練后得到最優(yōu)的分類(lèi)模型。
4.如權(quán)利要求3所述的步驟,其特征在于:
假幣的特征向量包括收繳數(shù)量,同系列冠字號(hào)碼的數(shù)量,同系列冠字號(hào)碼總收繳量,同系列冠字號(hào)碼中的總收繳量與最小收繳量之間比值,冠字號(hào)碼的活躍時(shí)長(zhǎng)。
模型迭代訓(xùn)練使用的損失函數(shù)為交叉熵?fù)p失函數(shù):
L(y,p)=-(ylog(p)+(1-y)log(1-p))
其中y∈{0,1}表示真實(shí)標(biāo)簽,p=Pr(y=1),p∈[0,1]表示模型預(yù)測(cè)標(biāo)簽為1的概率。
最優(yōu)模型的評(píng)價(jià)指標(biāo)為F1分?jǐn)?shù)。在多組參數(shù)對(duì)應(yīng)的模型中,最優(yōu)分類(lèi)模型是F1分?jǐn)?shù)最高的模型。
其中TP表示實(shí)際為機(jī)制假幣被預(yù)測(cè)為機(jī)制假幣的樣本數(shù)量,F(xiàn)P表示實(shí)際是打印假幣被預(yù)測(cè)為機(jī)制假幣的樣本數(shù)量,F(xiàn)N表示實(shí)際是機(jī)制假幣被預(yù)測(cè)為打印假幣的樣本數(shù)量。
5.如權(quán)利要求1所述的方法,其特征在于,假幣的時(shí)空傳播特征,包括:
假幣的收繳區(qū)域,在收繳區(qū)域的首次...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張新壯,周鵬飛,
申請(qǐng)(專利權(quán))人:北京慧辰資道資訊股份有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:北京;11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。