Vad är ett vanligt uttryck?
Regex, eller vanliga uttryck, är en mönstermatchning som programmerare använder för att söka efter vissa mönster i text. Vanliga uttryck kan söka efter nästan vad som helst, beroende på hur du strukturerar dem. de används överallt av programmerare eftersom de är ovärderliga för att hjälpa datorer att sortera data snabbt och filtrera bort nonsens som annars kan orsaka fel.
Regelbundna uttryck tenderar att se läskiga ut, särskilt för icke-programmerare. Titta bara på det här:
[a-zA-Z0-9 _. + -] + @ [a-zA-Z0-9 _-] + \. [a-zA-Z0-9 _.-] +
Realistiskt är det faktiskt inte så illa; att man matchar e-postadresser. Som du ser kan uttryck delas upp i enskilda tecken, som alla berättar för programmet vad de ska leta efter.
Regeluttryck är nästan universella. Samma general syntax gäller på alla språk med endast små variationer här och där. Den här guiden innehåller exempel från både Python och JavaScript samt vanlig gammal regex. Oroa dig inte om du arbetar med ett annat språk. Nästan allt kommer också att gälla för ditt språk.
Regex Basics
Tekniskt sett finns det inte många saker som inte kan betraktas som reguljära uttryck, eftersom bokstavliga textsträngar är riktigt enkla. Om du skulle använda 'abcde' som ett vanligt uttryck skulle programmeringsspråket söka efter den exakta strängen.
Den första mer dynamiska matchande karaktären att titta på är '.' karaktär. I detta sammanhang är punktkaraktären ett jokertecken. Om du söker med det kommer ditt program att returnera alla tecken som de hittar som en matchning.
Så vad händer om du vill leta efter en bokstavlig prick? Det är inte heller svårt. När du vill använda en bokstavsperiod lägger du till en backslash innan den, så här: '\.'
Backslash-tecken
Backslash spelar dock många fler roller här. De flesta av de stora regex-karaktärerna innehåller en backslash.
Ta en titt på några exempel:
- \ d: Siffror från 0 till 9
- \ w: "Word Characters" bokstäver, siffror och understrykning
- \ s: Mellanslagstecken, inklusive flikar, nya rader och vanliga mellanslag
Om du använder stora bokstäver istället för någon av dessa får du det motsatta. Till exempel ger \ 'D dig allt utom siffror.
Klasser
De backslash-tecken är bra, men de är fortfarande ganska styva. Generellt sett vill du matcha antingen bokstäver, siffror eller några specialtecken.
Placera karaktärerna som du vill att ska matchas i ett par hakparenteser []], så kommer ditt program att matchas med någon av dem. Detta kallas en regex-klass.
[abcd1234]
Ovanstående exempel är fortfarande ineffektivt. Istället kan du använda ett streck för att ange ett intervall; till exempel alla små bokstäver:
[a-z]
Du kan också lista intervall. Uttrycket nedan matchar alla bokstäver och siffror:
[a-zA-Z0-9]
Om du ska ta med strecket i din uppsättning karaktärer, klistra på det i slutet för att förhindra att det utvärderas. Det fungerar också med andra specialtecken.
[a-zA-Z0-9 _. + -]
Som med backslash-tecknen kan du också få det omvända resultatet här. Placera ett '^' i början av din klass för att utesluta dem från dina resultat. Detta utesluter siffror och flera specialtecken från resultaten:
[^0-9_+.-]
Grupper
Grupper använder en uppsättning parenteser för att klumpa ihop ditt uttryck. De grupperar data, så att ditt program kan rikta in sig och använda det. När ett program tar bort ' http://' från en webbadress använder den regex-grupper för att uppnå det. Regex låter det rikta in sig på vissa kriterier, och grupperna låter det separera avsnitt.
Med grupper kan du också välja mellan ett eller annat mönster. De använder en enda "|" att fungera som "eller" i uttrycket. Uttrycket nedan matchar något av dessa: .com, .org, .net, .edu eller .gov.
\. (com | org | net | edu | gov)
Kvantifierare
Kvantifierare är exakt vad de låter som. De berättar uttrycket mängden av en karaktär du letar efter. Dessa är de tillgängliga kvantifierarna:
- *: Noll eller mer
- +: En eller flera
- ?: Noll eller en
- {3}: Beloppet inom parentes
Placera någon av dessa kvantifierare i slutet av karaktären eller klassen du vill ange mängden. Det här exemplet letar efter sju-siffriga standardnummer:
\ d {3} [. * -] \ d {3} [. * -] \ d {4}
Ankare och gränser
Med reguljära uttryck kan du söka efter mönster baserat på deras position i en textsträng eller runt ett ord.
Det här är dina primära alternativ:
- ^: Början på en sträng
- $: Slutet på en sträng
- \ b: Ordgräns (början eller slutet av ett ord)
Om du bara vill hitta strängar som börjar med en bokstav kan du försöka:
^ [a-zA-Z]
Säg att du bara vill hitta ordet "it", inte ord som innehåller bokstäverna I och T; det är där du skulle använda ordgränser.
\ b (i | I) t \ b
Slutgiltiga tankar
Regelbundna uttryck kan spara massor av huvudvärk när du programmerar. Tänk dig att du försöker skriva logik för att uppnå något av exemplen i den här artikeln. Det skulle vara en hemsk röra. När du väl har blivit bekväm med dem kommer du antagligen att du verkligen njuter av regexens kraft och flexibilitet.