Cahier 2019-2_2849b_Volledige tekst_tcm28-375448.pdf

(1917 KB) Pobierz
Cahier 2019-2
Predictieve textmining in politieregistraties
Cyber- en gedigitaliseerde criminaliteit
N. Tollenaar
J. Rokven
D. Macro
M. Beerthuizen
A.M. van der Laan
Cahier
De reeks Cahier omvat de rapporten van onderzoek dat door en in opdracht van het
WODC is verricht.
Opname in de reeks betekent niet dat de inhoud van de rapporten het standpunt
van de Minister van Justitie en Veiligheid weergeeft.
Alle rapporten van het WODC zijn gratis te downloaden van www.wodc.nl.
Dankwoord
We willen verschillende mensen bedanken voor hun bijdragen aan de totstand -
koming van dit onderzoek. Op de eerste plaats de medewerkers van de politie
eenheid Den Haag en het dienstencentrum van de politie eenheid Amsterdam.
In het bijzonder zijn we veel dank verschuldigd aan René Hesseling, Paul Elzinga,
Christiaan Schuppers en Henk Zielstra evenals enkele andere medewerkers van
de politie. Daarnaast hebben we verschillende deskundigen op he t terrein van
cybercriminaliteit in de beginfase van het onderzoek mogen raadplegen, zij wor-
den bij naam genoemd in de bijlage. Tot slot willen we de leden van de begelei-
dingscommissie (zie bijlage 1), onder voorzitterschap van dr. Annemarie Slotboom,
hartelijk danken voor hun kritische lezing van iedere versie van dit rapport.
Wetenschappelijk O nderzoek- en Documentatiecentrum
C ahier 2019-2 | 3
Inhoud
Afkortingen — 7
Samenvatting — 9
1
1.1
1.2
1.3
2
2.1
2.1.1
2.1.2
2.1.3
2.1.4
2.1.5
2.2
3
3.1
3.1.1
3.1.2
3.1.3
3.1.4
3.2
3.2.1
3.2.2
3.2.3
3.2.4
3.2.5
3.2.6
3.3
3.3.1
3.3.2
3.3.3
3.3.4
3.4
4
4.1
4.1.1
4.1.2
4.2
4.3
4.3.1
4.3.2
4.3.3
4.4
Inleiding — 19
Eerder onderzoek naar online delicten in politieregistraties — 21
Onderzoeksvragen — 22
Leeswijzer — 23
ML voor geautomatiseerde documentclassificatie — 25
Beknopte beschrijving — 25
Supervised en unsupervised technieken — 25
Dataselectie: van steekproef naar train- en testdataset — 27
Databewerking: tekst voorbewerken en featureconstructie — 27
Featureselectie — 28
Modelleren ML-modellen — 29
Samenvatting — 29
Ontwikkeling van het classificatiemodel — 31
Dataselectie — 31
Het steekproefkader — 32
De steekproef — 33
Het annoteren — 36
De train- en testdata — 39
Databewerking — 39
Features op basis van lexicografische informatie — 40
Features op basis van meta-tekstuele informatie — 41
Features op basis van syntactische informatie — 41
Features op basis van semantische informatie — 42
Beschrijving en kwaliteit features — 43
Absolute en relatieve tellingen van features — 46
Modelleren van ML-modellen — 48
Modellen — 48
Featureselectie — 51
Criterium voor modelselectie — 51
Criteria voor modelfit — 52
Samenvatting — 55
Resultaten modellering cyber- en gedigitaliseerde delicten in
politieregistraties — 57
Beschrijvende statistieken — 57
Voorspellers van cybercriminaliteit bivariaat — 57
Voorspellers van gedigitaliseerde delicten bivariaat — 58
Modelselectie — 60
Performance eindmodel — 61
Selectie van featuresetcondities — 61
Resultaten eindmodel — 63
Voorspellers van cyber- en gedigitaliseerde delicten multivariaat — 65
Samenvatting — 70
Wetenschappelijk O nderzoek- en Documentatiecentrum
C ahier 2019-2 | 5
Zgłoś jeśli naruszono regulamin