Line data Source code
1 : /* -*- Mode: C++; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 4 -*- */
2 : /*
3 : * This file is part of the LibreOffice project.
4 : *
5 : * This Source Code Form is subject to the terms of the Mozilla Public
6 : * License, v. 2.0. If a copy of the MPL was not distributed with this
7 : * file, You can obtain one at http://mozilla.org/MPL/2.0/.
8 : *
9 : * This file incorporates work covered by the following license notice:
10 : *
11 : * Licensed to the Apache Software Foundation (ASF) under one or more
12 : * contributor license agreements. See the NOTICE file distributed
13 : * with this work for additional information regarding copyright
14 : * ownership. The ASF licenses this file to you under the Apache
15 : * License, Version 2.0 (the "License"); you may not use this file
16 : * except in compliance with the License. You may obtain a copy of
17 : * the License at http://www.apache.org/licenses/LICENSE-2.0 .
18 : */
19 :
20 : #ifndef _PARHTML_HXX
21 : #define _PARHTML_HXX
22 :
23 : #include "svtools/svtdllapi.h"
24 : #include <tools/solar.h>
25 : #include <tools/string.hxx>
26 : #include <svtools/svparser.hxx>
27 :
28 : #include <boost/ptr_container/ptr_vector.hpp>
29 :
30 : namespace com { namespace sun { namespace star {
31 : namespace document {
32 : class XDocumentProperties;
33 : }
34 : } } }
35 :
36 : class Color;
37 : class SvNumberFormatter;
38 : class SvKeyValueIterator;
39 :
40 : #define HTMLFONTSZ1_DFLT 7
41 : #define HTMLFONTSZ2_DFLT 10
42 : #define HTMLFONTSZ3_DFLT 12
43 : #define HTMLFONTSZ4_DFLT 14
44 : #define HTMLFONTSZ5_DFLT 18
45 : #define HTMLFONTSZ6_DFLT 24
46 : #define HTMLFONTSZ7_DFLT 36
47 :
48 : enum HTMLTableFrame { HTML_TF_VOID, HTML_TF_ABOVE, HTML_TF_BELOW,
49 : HTML_TF_HSIDES, HTML_TF_LHS, HTML_TF_RHS, HTML_TF_VSIDES, HTML_TF_BOX };
50 :
51 : enum HTMLTableRules { HTML_TR_NONE, HTML_TR_GROUPS, HTML_TR_ROWS,
52 : HTML_TR_COLS, HTML_TR_ALL };
53 :
54 : enum HTMLInputType
55 : {
56 : HTML_IT_TEXT = 0x01,
57 : HTML_IT_PASSWORD = 0x02,
58 : HTML_IT_CHECKBOX = 0x03,
59 : HTML_IT_RADIO = 0x04,
60 : HTML_IT_RANGE = 0x05,
61 : HTML_IT_SCRIBBLE = 0x06,
62 : HTML_IT_FILE = 0x07,
63 : HTML_IT_HIDDEN = 0x08,
64 : HTML_IT_SUBMIT = 0x09,
65 : HTML_IT_IMAGE = 0x0a,
66 : HTML_IT_RESET = 0x0b,
67 : HTML_IT_BUTTON = 0x0c
68 : };
69 :
70 : enum HTMLScriptLanguage
71 : {
72 : HTML_SL_STARBASIC,
73 : HTML_SL_JAVASCRIPT,
74 : HTML_SL_UNKNOWN
75 : };
76 :
77 : struct HTMLOptionEnum
78 : {
79 : const sal_Char *pName; // Wert einer HTML-Option
80 : sal_uInt16 nValue; // und der dazugehoerige Wert eines Enums
81 : };
82 :
83 : // Repraesentation einer HTML-Option (=Atrribut in einem Start-Tag)
84 : // Die Werte der Optionen werden immer als String gespeichert.
85 : // Die Methoden GetNumber, ... duerfen nur aufgerufen werden, wenn
86 : // die Option auch numerisch, ... ist.
87 :
88 10 : class SVT_DLLPUBLIC HTMLOption
89 : {
90 : String aValue; // der Wert der Option (immer als String)
91 : String aToken; // der Name der Option als String
92 : sal_uInt16 nToken; // und das entsprechende Token
93 :
94 : public:
95 :
96 : HTMLOption( sal_uInt16 nTyp, const String& rToken, const String& rValue );
97 :
98 : // der Name der Option ...
99 14 : sal_uInt16 GetToken() const { return nToken; } // ... als Enum
100 0 : const String& GetTokenString() const { return aToken; } // ... als String
101 :
102 : // der Wert der Option ...
103 14 : const String& GetString() const { return aValue; } // ... als String
104 :
105 : sal_uInt32 GetNumber() const; // ... als Zahl
106 : sal_Int32 GetSNumber() const; // ... als Zahl
107 : void GetNumbers( std::vector<sal_uInt32> &rNumbers, // ... als Zahlen
108 : bool bSpaceDelim=false ) const;
109 : void GetColor( Color& ) const; // ... als Farbe
110 :
111 : // ... als Enum pOptEnums ist ein HTMLOptionEnum-Array
112 : sal_uInt16 GetEnum( const HTMLOptionEnum *pOptEnums,
113 : sal_uInt16 nDflt=0 ) const;
114 : bool GetEnum( sal_uInt16 &rEnum, const HTMLOptionEnum *pOptEnums ) const;
115 :
116 : // ... und als ein par spezielle Enums
117 : HTMLInputType GetInputType() const; // <INPUT TYPE=...>
118 : HTMLTableFrame GetTableFrame() const; // <TABLE FRAME=...>
119 : HTMLTableRules GetTableRules() const; // <TABLE RULES=...>
120 : //SvxAdjust GetAdjust() const; // <P,TH,TD ALIGN=>
121 : };
122 :
123 : typedef ::boost::ptr_vector<HTMLOption> HTMLOptions;
124 :
125 : class SVT_DLLPUBLIC HTMLParser : public SvParser
126 : {
127 : private:
128 : mutable HTMLOptions maOptions; // die Optionen des Start-Tags
129 :
130 : bool bNewDoc : 1; // neues Doc lesen ?
131 : bool bIsInHeader : 1; // scanne Header-Bereich
132 : bool bIsInBody : 1; // scanne Body-Bereich
133 : bool bReadListing : 1; // Lese Listings
134 : bool bReadXMP : 1; // Lese XMP
135 : bool bReadPRE : 1; // Lese preformatted Text
136 : bool bReadTextArea : 1; // Lese TEXTAREA
137 : bool bReadScript : 1; // Lesen von <SCRIPT>
138 : bool bReadStyle : 1; // Lesen von <STYLE>
139 : bool bEndTokenFound : 1; // </SCRIPT> oder </STYLE> gefunden
140 :
141 : bool bPre_IgnoreNewPara : 1; // Flags fuers lesen von PRE-Absaetzen
142 : bool bReadNextChar : 1; // true: NextChar nochmals lesen (JavaScript!)
143 : bool bReadComment : 1; // true: NextChar nochmals lesen (JavaScript!)
144 :
145 : sal_uInt32 nPre_LinePos; // Pos in der Line im PRE-Tag
146 :
147 : int mnPendingOffToken; ///< OFF token pending for a <XX.../> ON/OFF ON token
148 :
149 : String aEndToken;
150 :
151 : protected:
152 : String sSaveToken; // das gelesene Tag als String
153 :
154 : int ScanText( const sal_Unicode cBreak = 0U );
155 :
156 : int _GetNextRawToken();
157 :
158 : // scanne das naechste Token,
159 : virtual int _GetNextToken();
160 :
161 : virtual ~HTMLParser();
162 :
163 1 : void FinishHeader( bool bBody ) { bIsInHeader = false; bIsInBody = bBody; }
164 :
165 : public:
166 : HTMLParser( SvStream& rIn, bool bReadNewDoc = true );
167 :
168 : virtual SvParserState CallParser(); // Aufruf des Parsers
169 :
170 19 : bool IsNewDoc() const { return bNewDoc; }
171 1 : bool IsInHeader() const { return bIsInHeader; }
172 : bool IsInBody() const { return bIsInBody; }
173 : bool IsValidSyntax() const { return true; }
174 0 : bool IsReadListing() const { return bReadListing; }
175 0 : bool IsReadXMP() const { return bReadXMP; }
176 35 : bool IsReadPRE() const { return bReadPRE; }
177 0 : bool IsReadScript() const { return bReadScript; }
178 0 : bool IsReadStyle() const { return bReadStyle; }
179 :
180 : void SetReadNextChar() { bReadNextChar = true; }
181 :
182 : // PRE-/LISTING oder XMP-Modus starten/beenden oder Tags entsprechend
183 : // filtern
184 : inline void StartPRE( bool bRestart=false );
185 0 : void FinishPRE() { bReadPRE = false; }
186 : int FilterPRE( int nToken );
187 :
188 : inline void StartListing( bool bRestart=false );
189 0 : void FinishListing() { bReadListing = false; }
190 : int FilterListing( int nToken );
191 :
192 : inline void StartXMP( bool bRestart=false );
193 0 : void FinishXMP() { bReadXMP = false; }
194 : int FilterXMP( int nToken );
195 :
196 0 : void FinishTextArea() { bReadTextArea = false; }
197 :
198 : // PRE-/LSITING- und XMP-Modus beenden
199 0 : void FinishPREListingXMP() { bReadPRE = bReadListing = bReadXMP = false; }
200 :
201 : // Das aktuelle Token dem aktuellen Modus (PRE, XMP, ...) entsprechend
202 : // Filtern und die Flags setzen. Wird von Continue aufgerufen, bevor
203 : // NextToken gerufen wird. Wer eigene Schleifen implementiert bzw.
204 : // selbst NextToken aufruft, sollte diese Methode vorher rufen.
205 : int FilterToken( int nToken );
206 :
207 : // Scannen eines Scripts beenden (sollte nur unmittelbar nach dem
208 : // Lesen eines <SCRIPT> aufgerufen werden
209 : void EndScanScript() { bReadScript = false; }
210 :
211 0 : void ReadRawData( const sal_Char *pEndToken ) { aEndToken.AssignAscii(pEndToken); }
212 :
213 : // Token ohne \-Sequenzen
214 : void UnescapeToken();
215 :
216 : // Ermitteln der Optionen. pNoConvertToken ist das optionale Token
217 : // einer Option, fuer die CR/LFs nicht aus dem Wert der Option
218 : // geloescht werden.
219 : const HTMLOptions& GetOptions( sal_uInt16 *pNoConvertToken=0 ) const;
220 :
221 : // fuers asynchrone lesen aus dem SvStream
222 : virtual void Continue( int nToken );
223 :
224 :
225 : protected:
226 :
227 : static rtl_TextEncoding GetEncodingByMIME( const String& rMime );
228 :
229 : /// template method: called when ParseMetaOptions adds a user-defined meta
230 : virtual void AddMetaUserDefined( OUString const & i_rMetaName );
231 :
232 : private:
233 : /// parse meta options into XDocumentProperties and encoding
234 : bool ParseMetaOptionsImpl( const ::com::sun::star::uno::Reference<
235 : ::com::sun::star::document::XDocumentProperties>&,
236 : SvKeyValueIterator*,
237 : const HTMLOptions&,
238 : rtl_TextEncoding& rEnc );
239 :
240 : public:
241 : /// overriding method must call this implementation!
242 : virtual bool ParseMetaOptions( const ::com::sun::star::uno::Reference<
243 : ::com::sun::star::document::XDocumentProperties>&,
244 : SvKeyValueIterator* );
245 :
246 : // Ist der uebergebene 0-terminierte String (vermutlich) der Anfang
247 : // eines HTML-Files? Er sollte mind. 80 Zeichen lang sein.
248 : // Mit Ausnahme des Falls, dass SwitchToUCS2==false und
249 : // SVPAR_CS_DONTKNOW uebergeben wird muss der String mit zwei(!)
250 : // 0-Bytes an einer geraden(!) Position terminiert sein.
251 : static bool IsHTMLFormat( const sal_Char* pHeader,
252 : bool bSwitchToUCS2 = false,
253 : rtl_TextEncoding eEnc=RTL_TEXTENCODING_DONTKNOW );
254 :
255 : bool ParseScriptOptions( String& rLangString, const String&, HTMLScriptLanguage& rLang,
256 : String& rSrc, String& rLibrary, String& rModule );
257 :
258 : // Einen Kommentar um den Inhalt von <SCRIPT> oder <STYLE> entfernen
259 : // Bei 'bFull' wird ggf. die gesammte Zeile hinter einem "<!--"
260 : // entfernt (fuer JavaSript)
261 : static void RemoveSGMLComment( String &rString, sal_Bool bFull );
262 :
263 : static bool InternalImgToPrivateURL( String& rURL );
264 : static rtl_TextEncoding GetEncodingByHttpHeader( SvKeyValueIterator *pHTTPHeader );
265 : bool SetEncodingByHTTPHeader( SvKeyValueIterator *pHTTPHeader );
266 : };
267 :
268 0 : inline void HTMLParser::StartPRE( bool bRestart )
269 : {
270 0 : bReadPRE = true;
271 0 : bPre_IgnoreNewPara = !bRestart;
272 0 : nPre_LinePos = 0UL;
273 0 : }
274 :
275 0 : inline void HTMLParser::StartListing( bool bRestart )
276 : {
277 0 : bReadListing = true;
278 0 : bPre_IgnoreNewPara = !bRestart;
279 0 : nPre_LinePos = 0UL;
280 0 : }
281 :
282 0 : inline void HTMLParser::StartXMP( bool bRestart )
283 : {
284 0 : bReadXMP = true;
285 0 : bPre_IgnoreNewPara = !bRestart;
286 0 : nPre_LinePos = 0UL;
287 0 : }
288 :
289 : #endif
290 :
291 : /* vim:set shiftwidth=4 softtabstop=4 expandtab: */
|