从html中抓取文字,把格式化的标签去掉
DK 于2008,09,16发表 | 没有评论 »
建立一个静态的类来作为文字处理的工具,在类中建立以下静态方法.在使用的时候直接调用即可.
////// 去除HTML标记 /// /// 包括HTML的源码 ///已经去除后的文字 public static string StripHTML(string strHtml) { string [] aryReg ={ @””, @”<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([”"@#])(\\[”"@#tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>”, @”([\r\n])[\s]+”, @”&(quot|#34);”, @”&(amp|#38);”, @”&(lt|#60);”, @”&(gt|#62);”, @”&(nbsp|#160);”, @”&(iexcl|#161);”, @”&(cent|#162);”, @”&(pound|#163);”, @”&(copy|#169);”, @”(\d+);”, @”–>”, @””, ” “, “\xa1″,//chr(161), “\xa2″,//chr(162), “\xa3″,//chr(163), “\xa9″,//chr(169), “”, “\r\n”, “” }; string newReg =aryReg[0]; string strOutput=strHtml; for(int i = 0;i”,”"); strOutput.Replace(”\r\n”,”"); return strOutput; }
转载请注明原文出处《从html中抓取文字,把格式化的标签去掉》 如无特别声明,所有文章均遵守创作共用 署名-非商业-禁止演绎 3.0协议。