Skip to content

Commit 0ba7c44

Browse files
committed
Summary: Fixed #2
Changesets: - When there is no stream; there is still text; be more lenient
1 parent d7c2ad3 commit 0ba7c44

File tree

2 files changed

+133
-0
lines changed

2 files changed

+133
-0
lines changed

data/Lisan/JWP_DR_151018/split.yml

Lines changed: 129 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,129 @@
1+
parliamentsession: par1sesi1
2+
hansardtype: 0
3+
hansardquestions:
4+
- questionnum: "1"
5+
pagenumstart: 2
6+
pagenumend: 7
7+
- questionnum: "2"
8+
pagenumstart: 8
9+
pagenumend: 10
10+
- questionnum: "3"
11+
pagenumstart: 12
12+
pagenumend: 20
13+
- questionnum: "6"
14+
pagenumstart: 21
15+
pagenumend: 26
16+
- questionnum: "8"
17+
pagenumstart: 27
18+
pagenumend: 28
19+
- questionnum: "9"
20+
pagenumstart: 29
21+
pagenumend: 33
22+
- questionnum: "11"
23+
pagenumstart: 34
24+
pagenumend: 35
25+
- questionnum: "12"
26+
pagenumstart: 36
27+
pagenumend: 37
28+
- questionnum: "13"
29+
pagenumstart: 38
30+
pagenumend: 39
31+
- questionnum: "14"
32+
pagenumstart: 40
33+
pagenumend: 45
34+
- questionnum: "16"
35+
pagenumstart: 46
36+
pagenumend: 48
37+
- questionnum: "17"
38+
pagenumstart: 49
39+
pagenumend: 51
40+
- questionnum: "18"
41+
pagenumstart: 52
42+
pagenumend: 53
43+
- questionnum: "19"
44+
pagenumstart: 54
45+
pagenumend: 56
46+
- questionnum: "20"
47+
pagenumstart: 57
48+
pagenumend: 62
49+
- questionnum: "22"
50+
pagenumstart: 63
51+
pagenumend: 65
52+
- questionnum: "23"
53+
pagenumstart: 66
54+
pagenumend: 67
55+
- questionnum: "24"
56+
pagenumstart: 68
57+
pagenumend: 70
58+
- questionnum: "25"
59+
pagenumstart: 71
60+
pagenumend: 73
61+
- questionnum: "26"
62+
pagenumstart: 74
63+
pagenumend: 75
64+
- questionnum: "27"
65+
pagenumstart: 76
66+
pagenumend: 83
67+
- questionnum: "30"
68+
pagenumstart: 84
69+
pagenumend: 86
70+
- questionnum: "31"
71+
pagenumstart: 87
72+
pagenumend: 88
73+
- questionnum: "32"
74+
pagenumstart: 89
75+
pagenumend: 95
76+
- questionnum: "35"
77+
pagenumstart: 96
78+
pagenumend: 99
79+
- questionnum: "37"
80+
pagenumstart: 100
81+
pagenumend: 101
82+
- questionnum: "38"
83+
pagenumstart: 102
84+
pagenumend: 104
85+
- questionnum: "39"
86+
pagenumstart: 105
87+
pagenumend: 106
88+
- questionnum: "40"
89+
pagenumstart: 107
90+
pagenumend: 109
91+
- questionnum: "41"
92+
pagenumstart: 110
93+
pagenumend: 111
94+
- questionnum: "42"
95+
pagenumstart: 112
96+
pagenumend: 113
97+
- questionnum: "43"
98+
pagenumstart: 114
99+
pagenumend: 117
100+
- questionnum: "44"
101+
pagenumstart: 118
102+
pagenumend: 119
103+
- questionnum: "45"
104+
pagenumstart: 120
105+
pagenumend: 125
106+
- questionnum: "47"
107+
pagenumstart: 126
108+
pagenumend: 128
109+
- questionnum: "48"
110+
pagenumstart: 129
111+
pagenumend: 130
112+
- questionnum: "49"
113+
pagenumstart: 131
114+
pagenumend: 133
115+
- questionnum: "50"
116+
pagenumstart: 134
117+
pagenumend: 136
118+
- questionnum: "51"
119+
pagenumstart: 137
120+
pagenumend: 137
121+
- questionnum: "52"
122+
pagenumstart: 138
123+
pagenumend: 139
124+
- questionnum: "53"
125+
pagenumstart: 140
126+
pagenumend: 141
127+
- questionnum: "54"
128+
pagenumstart: 142
129+
pagenumend: 144

internal/hansard/pdf.go

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -76,6 +76,10 @@ func (pdfDoc *PDFDocument) extractPDF() error {
7676
// copy over plain text; short form
7777
pt, pterr := p.GetPlainText(nil)
7878
if pterr != nil {
79+
if pterr.Error() == "malformed PDF: reading at offset 0: stream not present" {
80+
fmt.Println("**WILL IGNORE!!!! *****")
81+
continue
82+
}
7983
return xerrors.Errorf(" GetPlainText ERROR: %w", pt)
8084
}
8185
pdfPage.PDFPlainText = pt

0 commit comments

Comments
 (0)